Encouraging exploration in vision and language navigation: a path towards better generalization

Loading...
Thumbnail Image
Date
2024
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
In Vision-and-Language Navigation (VLN), given an natural-language instruction describing a certain target, and a 3D environment, the task is to find a sequence of actions that allows an agent to navigate from its current location to the target. A fundamental challenge in VLN is that training data is not representative of the distribution of environments. This lack of data may result in very poor performance on unseen environments. In this paper we study a novel approach which explicitly incorporates the notion of exploration training. Specifically, we propose Explore Supervision (EXPS), which is designed to provide VLN agents with supervision which strategically encourages exploration in areas around the initial shortest path to the target. We implemented EXPS on top of a state-of-the-art model for the REVERIE challenge, achieving an improvement of 4.77% in success rate on the unseen validation set.
En Navegación por Visión y Lenguaje, dada una instrucción en lenguaje natural describiendo cierto objetivo, y un ambiente tridimensional, la tarea es encontrar una secuencia de acciones que permitan a un agente a navegar desde su locación actual al objetivo. Un desafío fundamental en Navegación por Visión y Lenguaje es que los datos de entrenamiento no son representativos de la distribución de ambientes. Esta falta de datos puede resultar en un rendimiento pobre en ambientes desconocidos. En este trabajo estudiamos un método novedoso que explícitamente incorpora la noción de entrenamiento de exploración. Específicamente, proponemos el algoritmo Supervisión Exploratoria, el cual se encarga de proveer a los agentes con una supervisión que estratégicamente promueve la exploración áreas alrededor de la ruta más corta entre el punto inicial y el objetivo. Implementamos este algoritmo en una modelo del estado del arte en el desafió REVERIE, logrando una mejora de 4.77% en el porcentaje de éxito sobre el conjunto de ambientes desconocidos.
Description
Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2024
Keywords
Vision-Language Navigation, Deep Learning, Computer Vision, Object Detection, Exploration, Navegación por Visión y Lenguaje, Aprendizaje Profundo, Visión por Computador, Detección de Objetos, Exploración
Citation