Bridging the visual semantic gap in VLN via semantically richer instructions

Ossandón Stanke, Joaquín

Bridging the visual semantic gap in VLN via semantically richer instructions

dc.contributor.advisor	Soto Arriaza, Álvaro Marcelo
dc.contributor.author	Ossandón Stanke, Joaquín
dc.contributor.other	Pontificia Universidad Católica de Chile. Escuela de Ingeniería
dc.date.accessioned	2022-07-18T20:32:52Z
dc.date.available	2022-07-18T20:32:52Z
dc.date.issued	2022
dc.description	Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2022
dc.description.abstract	La tarea de Visual-and-Language Navigation (VLN) requiere entender complejas instrucciones de texto en lenguaje natural y navegar en un ambiente natural interior usando únicamente información visual. Mientras es una tarea trivial para el humano, sigue siendo un problema abierto para los modelos de inteligencia artificial. En este trabajo, planteamos como hipótesis que el mal uso de la información visual disponible es la razón principal del bajo rendimiento de los modelos actuales. Para apoyar esta hipótesis, presentamos evidencia experimental mostrando que modelos del estado del arte no son totalmente afectados cuando reciben limitada o incluso nula información visual, indicando un fuerte overfitting al texto de las instrucciones. Para fomentar un uso más adecuado de la información visual, proponemos un nuevo método de aumento de datos que fomenta la inclusión de información visual más explícita en la generación de instrucciones de navegación textuales. Nuestra intuición principal es que los conjuntos de datos actuales incluyen instrucciones textuales que tienen como objetivo informar a un navegante experto, como un ser humano, pero no a un agente de navegación visual principiante, como un modelo de deep learning inicializado aleatoriamente. Específicamente, para cerrar la brecha semántica visual de los conjuntos de datos actuales, aprovechamos los metadatos disponibles para el conjunto de datos Matterport3D que, entre otros, incluye información sobre etiquetas de objetos que están presentes en las escenas. Entrenando un modelo actual con el nuevo conjunto de instrucciones generado aumenta su rendimiento en un 8% en cuanto a tasa de éxito en entornos desconocidos, mientras que probar estas nuevas instrucciones en humanos supera a las instrucciones sintéticas disponibles, lo que demuestra las ventajas de la propuesta de aumento de datos.
dc.format.extent	xi, 61 páginas
dc.fuente.origen	SRIA
dc.identifier.doi	10.7764/tesisUC/ING/64414
dc.identifier.uri	https://doi.org/10.7764/tesisUC/ING/64414
dc.identifier.uri	https://repositorio.uc.cl/handle/11534/64414
dc.information.autoruc	Escuela de Ingeniería ; Soto Arriaza, Álvaro Marcelo ; S/I ; 73678
dc.information.autoruc	Escuela de Ingeniería ; Ossandón Stanke, Joaquín ; S/I ; 232549
dc.language.iso	en
dc.nota.acceso	Contenido completo
dc.rights	acceso abierto
dc.subject	Vision	es_ES
dc.subject	Lenguaje	es_ES
dc.subject	Navegación	es_ES
dc.subject	VLN	es_ES
dc.subject	Robótica cognitiva	es_ES
dc.subject.ddc	006.3
dc.subject.dewey	Ciencias de la computación	es_ES
dc.subject.other	Inteligencia artificial	es_ES
dc.subject.other	Procesamiento de imagen	es_ES
dc.subject.other	Aprendizaje de máquina	es_ES
dc.title	Bridging the visual semantic gap in VLN via semantically richer instructions	es_ES
dc.type	tesis de maestría
sipa.codpersvinculados	73678
sipa.codpersvinculados	232549

Files

Original bundle

Now showing 1 - 1 of 1

Name:: Tesis_JoaquinOssandon.pdf
Size:: 41.57 MB
Format:: Adobe Portable Document Format
Description:

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.98 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

3.01 Tesis magíster