A differentiable adaptive computation time algorithm for neural networks

dc.contributor.advisorSoto Arriaza, Álvaro Marcelo
dc.contributor.authorEyzaguirre, Cristóbal
dc.contributor.otherPontificia Universidad Católica de Chile. Escuela de Ingeniería
dc.date.accessioned2021-07-29T14:34:24Z
dc.date.available2021-07-29T14:34:24Z
dc.date.issued2021
dc.descriptionTesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2021
dc.description.abstractA pesar de las mejoras sustanciales en los resultados que aportan los modelos de redes neuronales, su aplicación generalizada se ha visto limitada por su elevado coste computacional debido a redundancias presentes en este tipo de arquitecturas. M´as a´un, esta tesis postula que dichas ineficiencias no pueden resolverse completamente con métodos estáticos, debido a que algunas redundancias son intrínsecas al problema que se resuelve y, por lo tanto, son dependientes de los datos. Aunque en respuesta a este problema se han propuesto arquitecturas dinámicas que se adaptan a la entrada, todas ellas comparten la limitación de que no son totalmente diferenciables. Ante esta limitación común, nuestro trabajo propone la primera implementación de un algoritmo de tiempo de cómputo dinámico que es totalmente diferenciable: un algoritmo dinámico diferenciable de early exiting que llamamos DACT. Validamos las ventajas de nuestro enfoque, tanto en términos de resultados como de interpretabilidad, utilizando dos de los casos de uso más comunes, y descubrimos que el DACT puede conllevar: i) importantes ganancias de rendimiento cuando sustituye a los enfoques dinámicos existentes, o ii) eliminar las redundancias intrínsecas cuando se utiliza para complementar modelos estáticos. De hecho, en el dominio del procesamiento de lenguaje descubrimos que nuestro enfoque es mejor para reducir el número de bloques Transformer utilizados por los modelos BERT sin pérdida de desempeño en una serie de tareas. Del mismo modo, mostramos una reducción significativa en el número de pasos recurrentes necesarios cuando se aplica a la arquitectura MAC, superando los resultados tanto de los algoritmos adaptativos existentes como de aquellos estáticos comparables, a la vez que se mejora la transparencia del modelo. Además, nuestro modelo muestra una notable estabilidad, respondiendo de forma predecible a los cambios de los hiperparámetros, a la vez que equilibra la precisión y la complejidad de forma razonable.
dc.format.extentxi, 59 páginas
dc.fuente.origenAutoarchivo
dc.identifier.doi10.7764/tesisUC/ING/61644
dc.identifier.urihttps://doi.org/10.7764/tesisUC/ING/61644
dc.identifier.urihttps://repositorio.uc.cl/handle/11534/61644
dc.information.autorucEscuela de Ingeniería ; Soto Arriaza, Álvaro Marcelo ; 0000-0001-9378-397X ; 73678
dc.information.autorucEscuela de Ingeniería ; Eyzaguirre, Cristóbal ; S/I ; 245479
dc.language.isoen
dc.nota.accesoContenido completo
dc.rightsacceso abierto
dc.subject.ddc005.13
dc.subject.deweyCiencias de la computaciónes_ES
dc.subject.otherAlgoritmos computacionaleses_ES
dc.subject.otherRedes neurales (Ciencia de la computación)es_ES
dc.subject.otherArquitectura de softwarees_ES
dc.titleA differentiable adaptive computation time algorithm for neural networkses_ES
dc.typetesis de maestría
sipa.codpersvinculados73678
sipa.codpersvinculados245479
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
TESIS_CEyzaguirre_Firma Final.pdf
Size:
4.71 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.98 KB
Format:
Item-specific license agreed upon to submission
Description: