Enhanced vision-language navigation by using scene recognition auxiliary task

Manterola Valenzuela, Raimundo

Enhanced vision-language navigation by using scene recognition auxiliary task

dc.contributor.advisor	Soto Arriaza, Álvaro Marcelo
dc.contributor.author	Manterola Valenzuela, Raimundo
dc.contributor.other	Pontificia Universidad Católica de Chile. Escuela de Ingeniería
dc.date.accessioned	2021-01-21T14:58:52Z
dc.date.available	2021-01-21T14:58:52Z
dc.date.issued	2021
dc.description	Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2021
dc.description.abstract	Vision-Language Navigation es una tarea cognitiva altamente exigente que abordada desde una perspectiva de Machine Learning, implica entrenar a un agente para navegar por diferentes escenarios siguiendo instrucciones en lenguaje natural. Esta tarea nos acerca un paso más a tener interacciones fluidas entre humanos y robots. Sin embargo, todavía existe una gran brecha entre el desempeño humano y los modelos actuales de Vision-Language Navigation. Las instrucciones suelen describir caminos que hacen referencia a lugares, por ejemplo, girar a la derecha al final de la cocina. Esto hace que sea necesario comprender la semántica de las diferentes habitaciones para lograr una correcta navegación. Sin embargo, esta comprensión por lo general no se supervisa directamente y se deja para ser aprendida de manera implícita. En este trabajo, proponemos una tarea auxiliar en la que los agentes deben clasificar los diferentes tipos de habitaciones por las que navegan, y demostramos empíricamente que al agregar esta tarea, los modelos aprenden a navegar mejor y de manera más eficiente. Esto se ve reflejado en un aumento en la mayoría de las métricas de Vision-Language Navigation tanto para escenarios vistos como no vistos durante la fase de entrenamiento.
dc.format.extent	xii, 46 páginas
dc.identifier.doi	10.7764/tesisUC/ING/51219
dc.identifier.uri	https://doi.org/10.7764/tesisUC/ING/51219
dc.identifier.uri	https://repositorio.uc.cl/handle/11534/51219
dc.language.iso	en
dc.nota.acceso	Contenido completo
dc.rights	acceso abierto
dc.subject.ddc	004.019
dc.subject.dewey	Ciencias de la computación	es_ES
dc.subject.other	Interacción hombre-computador	es_ES
dc.subject.other	Aprendizaje de máquina	es_ES
dc.subject.other	Lenguajes de programación (Computadores electrónicos) - Semántica	es_ES
dc.title	Enhanced vision-language navigation by using scene recognition auxiliary task	es_ES
dc.type	tesis de maestría
sipa.codpersvinculados	73678
sipa.codpersvinculados	232618

Files

Original bundle

Now showing 1 - 1 of 1

Name:: TESIS_RManterola_Firma Final.pdf
Size:: 11.39 MB
Format:: Adobe Portable Document Format
Description:

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.98 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

3.01 Tesis magíster