Las actuales representaciones 2D e interacciones basadas en coordenadas para la navegación social dejan de lado importantes relaciones y pistas visuales que pueden ser capturadas solamente a través de una vista en primera persona de la escena. Esto limita el rendimiento de modelos de navegación social del tipo data-driven. En este trabajo, proponemos aprovechar las herramientas de los motores de videojuegos actuales, -como Unity-, para transformar datasets preexistentes con vista de pájaro a datasets con vista en primera persona, y en particular una vista de profundidad. Además, demostramos los beneficios de usar data sintética generada por el motor de videojuegos para pre-entrenar un modelo de navegación. Para probar nuestras ideas, presentamos DeepSocNav, un modelo de aprendizaje profundo el cual toma ventaja de los datasets transformados y sintéticos, además de una estrategia auto-supervisada incluida en la forma de una tarea auxiliar. Esta tarea consiste en anticipar la siguiente imagen de profundidad que el agente verá. Nuestros experimentos muestran el beneficio del modelo propuesto el cual es capaz de superar baselines relevantes en términos de métricas sociales de navegación.
Registro Sencillo
Registro Completo
Autor | Vicente, Juan Pablo de |
Profesor guía | Soto Arriaza, Álvaro Marcelo |
Otro autor | Pontificia Universidad Católica de Chile. Escuela de Ingeniería |
Título | DEEPSOCNAV : social navigation by imitating human behaviors |
Fecha de publicación | 2021 |
Nota | Tesis (Magíster en Ciencias de la Ingeniería)--Pontificia Universidad Católica de Chile, 2021 |
Resumen | Las actuales representaciones 2D e interacciones basadas en coordenadas para la navegación social dejan de lado importantes relaciones y pistas visuales que pueden ser capturadas solamente a través de una vista en primera persona de la escena. Esto limita el rendimiento de modelos de navegación social del tipo data-driven. En este trabajo, proponemos aprovechar las herramientas de los motores de videojuegos actuales, -como Unity-, para transformar datasets preexistentes con vista de pájaro a datasets con vista en primera persona, y en particular una vista de profundidad. Además, demostramos los beneficios de usar data sintética generada por el motor de videojuegos para pre-entrenar un modelo de navegación. Para probar nuestras ideas, presentamos DeepSocNav, un modelo de aprendizaje profundo el cual toma ventaja de los datasets transformados y sintéticos, además de una estrategia auto-supervisada incluida en la forma de una tarea auxiliar. Esta tarea consiste en anticipar la siguiente imagen de profundidad que el agente verá. Nuestros experimentos muestran el beneficio del modelo propuesto el cual es capaz de superar baselines relevantes en términos de métricas sociales de navegación. |
Derechos | acceso abierto |
DOI | 10.7764/tesisUC/ING/52497 |
Enlace | |
Materia | Robótica Aprendizaje de máquina Visión robótica |
Paginación | x, 42 páginas |
Temática | Ingeniería |
Tipo de documento | tesis de maestría |