A differentiable adaptive computation time algorithm for neural networks

Loading...
Thumbnail Image
Date
2021
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
A pesar de las mejoras sustanciales en los resultados que aportan los modelos de redes neuronales, su aplicación generalizada se ha visto limitada por su elevado coste computacional debido a redundancias presentes en este tipo de arquitecturas. M´as a´un, esta tesis postula que dichas ineficiencias no pueden resolverse completamente con métodos estáticos, debido a que algunas redundancias son intrínsecas al problema que se resuelve y, por lo tanto, son dependientes de los datos. Aunque en respuesta a este problema se han propuesto arquitecturas dinámicas que se adaptan a la entrada, todas ellas comparten la limitación de que no son totalmente diferenciables. Ante esta limitación común, nuestro trabajo propone la primera implementación de un algoritmo de tiempo de cómputo dinámico que es totalmente diferenciable: un algoritmo dinámico diferenciable de early exiting que llamamos DACT. Validamos las ventajas de nuestro enfoque, tanto en términos de resultados como de interpretabilidad, utilizando dos de los casos de uso más comunes, y descubrimos que el DACT puede conllevar: i) importantes ganancias de rendimiento cuando sustituye a los enfoques dinámicos existentes, o ii) eliminar las redundancias intrínsecas cuando se utiliza para complementar modelos estáticos. De hecho, en el dominio del procesamiento de lenguaje descubrimos que nuestro enfoque es mejor para reducir el número de bloques Transformer utilizados por los modelos BERT sin pérdida de desempeño en una serie de tareas. Del mismo modo, mostramos una reducción significativa en el número de pasos recurrentes necesarios cuando se aplica a la arquitectura MAC, superando los resultados tanto de los algoritmos adaptativos existentes como de aquellos estáticos comparables, a la vez que se mejora la transparencia del modelo. Además, nuestro modelo muestra una notable estabilidad, respondiendo de forma predecible a los cambios de los hiperparámetros, a la vez que equilibra la precisión y la complejidad de forma razonable.
Description
Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2021
Keywords
Citation