In Vision-and-Language Navigation (VLN), given an natural-language instruction describing a certain target, and a 3D environment, the task is to find a sequence of actions that allows an agent to navigate from its current location to the target. A fundamental challenge in VLN is that training data is not representative of the distribution of environments. This lack of data may result in very poor performance on unseen environments. In this paper we study a novel approach which explicitly incorporates the notion of exploration training. Specifically, we propose Explore Supervision (EXPS), which is designed to provide VLN agents with supervision which strategically encourages exploration in areas around the initial shortest path to the target. We implemented EXPS on top of a state-of-the-art model for the REVERIE challenge, achieving an improvement of 4.77% in success rate on the unseen validation set.
Registro Sencillo
Registro Completo
Autor | Hinostroza Espinoza, Cristian Andrés |
Profesor guía | Baier Aranda, Jorge Andrés Toro Icarte, Rodrigo Andrés |
Otro autor | Pontificia Universidad Católica de Chile. Escuela de Ingeniería |
Título | Encouraging exploration in vision and language navigation: a path towards better generalization |
Fecha de publicación | 2024 |
Nota | Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2024 |
Resumen | In Vision-and-Language Navigation (VLN), given an natural-language instruction describing a certain target, and a 3D environment, the task is to find a sequence of actions that allows an agent to navigate from its current location to the target. A fundamental challenge in VLN is that training data is not representative of the distribution of environments. This lack of data may result in very poor performance on unseen environments. In this paper we study a novel approach which explicitly incorporates the notion of exploration training. Specifically, we propose Explore Supervision (EXPS), which is designed to provide VLN agents with supervision which strategically encourages exploration in areas around the initial shortest path to the target. We implemented EXPS on top of a state-of-the-art model for the REVERIE challenge, achieving an improvement of 4.77% in success rate on the unseen validation set. En Navegación por Visión y Lenguaje, dada una instrucción en lenguaje natural describiendo cierto objetivo, y un ambiente tridimensional, la tarea es encontrar una secuencia de acciones que permitan a un agente a navegar desde su locación actual al objetivo. Un desafío fundamental en Navegación por Visión y Lenguaje es que los datos de entrenamiento no son representativos de la distribución de ambientes. Esta falta de datos puede resultar en un rendimiento pobre en ambientes desconocidos. En este trabajo estudiamos un método novedoso que explícitamente incorpora la noción de entrenamiento de exploración. Específicamente, proponemos el algoritmo Supervisión Exploratoria, el cual se encarga de proveer a los agentes con una supervisión que estratégicamente promueve la exploración áreas alrededor de la ruta más corta entre el punto inicial y el objetivo. Implementamos este algoritmo en una modelo del estado del arte en el desafió REVERIE, logrando una mejora de 4.77% en el porcentaje de éxito sobre el conjunto de ambientes desconocidos. |
Derechos | acceso abierto |
DOI | 10.7764/tesisUC/ING/87492 |
Enlace | |
Paginación | xi; 28 páginas |
Palabra clave | Vision-Language Navigation Deep Learning Computer Vision Object Detection Exploration Navegación por Visión y Lenguaje Aprendizaje Profundo Visión por Computador Detección de Objetos Exploración |
Temática | Ingeniería |
Tipo de documento | tesis de maestría |