El aumento de datos o Data Augmentation es un proceso que surge en distintos problemas de machine learning cuando la base de datos de entrenamiento es insuficiente o cuando los algoritmos que se van a utilizar requieren de un gran volumen de información para ser entrenados. Por ejemplo, típicamente, en el contexto de problemas de Machine Learning en el ámbito médico con datos tabulares, se suelen utilizar técnicas de oversampling para tener pacientes “ficticios” que sigan las mismas características estadísticas de la muestra y así entrenar los algoritmos con más datos. También son muy utilizadas estas técnicas en proyectos con algoritmos de visión artificial (computer vision) ya que, a partir de las imágenes originales, podemos generar otras que ayuden a generalizar a los algoritmos (imágenes con ruido, rotadas, parciales, etc.).