Vision-Language Navigation es una tarea cognitiva altamente exigente que abordada desde una perspectiva de Machine Learning, implica entrenar a un agente para navegar por diferentes escenarios siguiendo instrucciones en lenguaje natural. Esta tarea nos acerca un paso más a tener interacciones fluidas entre humanos y robots. Sin embargo, todavía existe una gran brecha entre el desempeño humano y los modelos actuales de Vision-Language Navigation. Las instrucciones suelen describir caminos que hacen referencia a lugares, por ejemplo, girar a la derecha al final de la cocina. Esto hace que sea necesario comprender la semántica de las diferentes habitaciones para lograr una correcta navegación. Sin embargo, esta comprensión por lo general no se supervisa directamente y se deja para ser aprendida de manera implícita. En este trabajo, proponemos una tarea auxiliar en la que los agentes deben clasificar los diferentes tipos de habitaciones por las que navegan, y demostramos empíricamente que al agregar esta tarea, los modelos aprenden a navegar mejor y de manera más eficiente. Esto se ve reflejado en un aumento en la mayoría de las métricas de Vision-Language Navigation tanto para escenarios vistos como no vistos durante la fase de entrenamiento.
Registro Sencillo
Registro Completo
Autor | Manterola Valenzuela, Raimundo |
Profesor guía | Soto Arriaza, Álvaro Marcelo |
Otro autor | Pontificia Universidad Católica de Chile. Escuela de Ingeniería |
Título | Enhanced vision-language navigation by using scene recognition auxiliary task |
Fecha de publicación | 2021 |
Nota | Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2021 |
Resumen | Vision-Language Navigation es una tarea cognitiva altamente exigente que abordada desde una perspectiva de Machine Learning, implica entrenar a un agente para navegar por diferentes escenarios siguiendo instrucciones en lenguaje natural. Esta tarea nos acerca un paso más a tener interacciones fluidas entre humanos y robots. Sin embargo, todavía existe una gran brecha entre el desempeño humano y los modelos actuales de Vision-Language Navigation. Las instrucciones suelen describir caminos que hacen referencia a lugares, por ejemplo, girar a la derecha al final de la cocina. Esto hace que sea necesario comprender la semántica de las diferentes habitaciones para lograr una correcta navegación. Sin embargo, esta comprensión por lo general no se supervisa directamente y se deja para ser aprendida de manera implícita. En este trabajo, proponemos una tarea auxiliar en la que los agentes deben clasificar los diferentes tipos de habitaciones por las que navegan, y demostramos empíricamente que al agregar esta tarea, los modelos aprenden a navegar mejor y de manera más eficiente. Esto se ve reflejado en un aumento en la mayoría de las métricas de Vision-Language Navigation tanto para escenarios vistos como no vistos durante la fase de entrenamiento. |
Derechos | acceso abierto |
DOI | 10.7764/tesisUC/ING/51219 |
Enlace | |
Materia | Interacción hombre-computador Aprendizaje de máquina Lenguajes de programación (Computadores electrónicos) - Semántica |
Paginación | xii, 46 páginas |
Temática | Ciencias de la computación |
Tipo de documento | tesis de maestría |