A differentiable adaptive computation time algorithm for neural networks
Loading...
Date
2021
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
A pesar de las mejoras sustanciales en los resultados que aportan los modelos de redes
neuronales, su aplicación generalizada se ha visto limitada por su elevado coste computacional
debido a redundancias presentes en este tipo de arquitecturas. M´as a´un, esta
tesis postula que dichas ineficiencias no pueden resolverse completamente con métodos
estáticos, debido a que algunas redundancias son intrínsecas al problema que se resuelve
y, por lo tanto, son dependientes de los datos. Aunque en respuesta a este problema se
han propuesto arquitecturas dinámicas que se adaptan a la entrada, todas ellas comparten
la limitación de que no son totalmente diferenciables. Ante esta limitación común, nuestro
trabajo propone la primera implementación de un algoritmo de tiempo de cómputo
dinámico que es totalmente diferenciable: un algoritmo dinámico diferenciable de early
exiting que llamamos DACT.
Validamos las ventajas de nuestro enfoque, tanto en términos de resultados como de
interpretabilidad, utilizando dos de los casos de uso más comunes, y descubrimos que el
DACT puede conllevar: i) importantes ganancias de rendimiento cuando sustituye a los
enfoques dinámicos existentes, o ii) eliminar las redundancias intrínsecas cuando se utiliza
para complementar modelos estáticos. De hecho, en el dominio del procesamiento
de lenguaje descubrimos que nuestro enfoque es mejor para reducir el número de bloques
Transformer utilizados por los modelos BERT sin pérdida de desempeño en una serie de
tareas. Del mismo modo, mostramos una reducción significativa en el número de pasos
recurrentes necesarios cuando se aplica a la arquitectura MAC, superando los resultados
tanto de los algoritmos adaptativos existentes como de aquellos estáticos comparables, a la
vez que se mejora la transparencia del modelo. Además, nuestro modelo muestra una notable
estabilidad, respondiendo de forma predecible a los cambios de los hiperparámetros,
a la vez que equilibra la precisión y la complejidad de forma razonable.
Description
Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2021