Encouraging exploration in vision and language navigation: a path towards better generalization

dc.catalogadoryvc
dc.contributor.advisorBaier Aranda, Jorge Andrés
dc.contributor.advisorToro Icarte, Rodrigo Andrés
dc.contributor.authorHinostroza Espinoza, Cristian Andrés
dc.contributor.otherPontificia Universidad Católica de Chile. Escuela de Ingeniería
dc.date.accessioned2024-08-16T16:59:19Z
dc.date.available2024-08-16T16:59:19Z
dc.date.issued2024
dc.descriptionTesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2024
dc.description.abstractIn Vision-and-Language Navigation (VLN), given an natural-language instruction describing a certain target, and a 3D environment, the task is to find a sequence of actions that allows an agent to navigate from its current location to the target. A fundamental challenge in VLN is that training data is not representative of the distribution of environments. This lack of data may result in very poor performance on unseen environments. In this paper we study a novel approach which explicitly incorporates the notion of exploration training. Specifically, we propose Explore Supervision (EXPS), which is designed to provide VLN agents with supervision which strategically encourages exploration in areas around the initial shortest path to the target. We implemented EXPS on top of a state-of-the-art model for the REVERIE challenge, achieving an improvement of 4.77% in success rate on the unseen validation set.
dc.description.abstractEn Navegación por Visión y Lenguaje, dada una instrucción en lenguaje natural describiendo cierto objetivo, y un ambiente tridimensional, la tarea es encontrar una secuencia de acciones que permitan a un agente a navegar desde su locación actual al objetivo. Un desafío fundamental en Navegación por Visión y Lenguaje es que los datos de entrenamiento no son representativos de la distribución de ambientes. Esta falta de datos puede resultar en un rendimiento pobre en ambientes desconocidos. En este trabajo estudiamos un método novedoso que explícitamente incorpora la noción de entrenamiento de exploración. Específicamente, proponemos el algoritmo Supervisión Exploratoria, el cual se encarga de proveer a los agentes con una supervisión que estratégicamente promueve la exploración áreas alrededor de la ruta más corta entre el punto inicial y el objetivo. Implementamos este algoritmo en una modelo del estado del arte en el desafió REVERIE, logrando una mejora de 4.77% en el porcentaje de éxito sobre el conjunto de ambientes desconocidos.
dc.fechaingreso.objetodigital2024-08-16
dc.format.extentxi; 28 páginas
dc.fuente.origenSRIA
dc.identifier.doi10.7764/tesisUC/ING/87492
dc.identifier.urihttps://doi.org/10.7764/tesisUC/ING/87492
dc.identifier.urihttps://repositorio.uc.cl/handle/11534/87492
dc.information.autorucEscuela de Ingeniería; Hinostroza Espinoza, Cristian Andrés; S/I; 1045584
dc.information.autorucEscuela de Ingeniería; Baier Aranda, Jorge Andrés; 0000-0002-6280-5619; 9477
dc.information.autorucEscuela de Ingeniería; Toro Icarte, Rodrigo Andrés; S/I; 170373
dc.language.isoen
dc.nota.accesocontenido completo
dc.rightsacceso abierto
dc.subjectVision-Language Navigation
dc.subjectDeep Learning
dc.subjectComputer Vision
dc.subjectObject Detection
dc.subjectExploration
dc.subjectNavegación por Visión y Lenguaje
dc.subjectAprendizaje Profundo
dc.subjectVisión por Computador
dc.subjectDetección de Objetos
dc.subjectExploración
dc.subject.ddc620
dc.subject.deweyIngenieríaes_ES
dc.titleEncouraging exploration in vision and language navigation: a path towards better generalization
dc.typetesis de maestría
sipa.codpersvinculados1045584
sipa.codpersvinculados9477
sipa.codpersvinculados170373
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
TESIS_CHinostroza_Encouraging exploration in vision.pdf
Size:
1.06 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.98 KB
Format:
Item-specific license agreed upon to submission
Description: