Data augmentation helps to prevent shortcuts and learn representations for continual learning in neural networks

Amenábar Montenegro, Sebastián

Data augmentation helps to prevent shortcuts and learn representations for continual learning in neural networks

Files

TESIS_SAmenábar_Firma Final.pdf(11.19 MB)

Date

2021

Authors

Amenábar Montenegro, Sebastián

Abstract

Los sesgos inductivos han sido fundamentales en el éxito del aprendizaje profundo, pero, recientemente, los modelos con sesgos inductivos fuertes han sido superados por propuestas centradas en los datos, que combinan arquitecturas grandes y flexibles, con una especial atención en los datos. No obstante, estas propuestas centradas en los datos mantienen algunos de los problemas que el aprendizaje profundo tiene, los mas relevantes para este trabajo son el aprendizaje de atajos y el olvido catastrófico. El aprendizaje de atajos ocurre cuando la red aprende reglas de decisión que no son robustas a cambios en la distribución de los datos, por ejemplo, reconocer camellos en un pastizal, después de haber visto camellos únicamente en el desierto. El olvido catastrófico ocurre cuando la red tiene que aprender de un flujo no estacionario de datos, sin perder o olvidar el conocimiento ya adquirido, pero falla en lograr esto y tiene un mal desempeño en los datos que vió anteriormente, por ejemplo, aprender a reconocer animales sin olvidar los ya conocidos. En este trabajo mostramos que la aumentación de datos puede ser utilizada para mitigar los problemas mencionados. Primero, observamos el aprendizaje de atajos en la tarea de respuesta a pregunta visual. Vimos que una arquitectura flexible aprende atajos por lo que falla al modificar la distribución de los datos, pero la incorporación de aumentación previene que el modelo aprenda estas reglas y ayuda a mejorar su desempeño en los datos de la distribución modificada. Para el problema del olvido catastrófico, trabajos recientes mostraron que el meta-aprendizaje puede ser utilizado para aprender un extractor de características menos susceptible a olvidar. En este trabajo, mostramos que una red neuronal entrenada mediante aprendizaje supervisado tradicional también puede ser utilizada para éste problema, y observamos que la aumentación de datos puede tener un gran impacto en el desempeño del modelo.

Description

Tesis (Magíster en Ciencias de la Ingeniería)--Pontificia Universidad Católica de Chile, 2021

URI

https://doi.org/10.7764/tesisUC/ING/63021
https://repositorio.uc.cl/handle/11534/63021

Collections

3.01 Tesis magíster

Full item page