Browsing by Author "Soto Arriaza, Álvaro Marcelo"
Now showing 1 - 20 of 42
Results Per Page
Sort Options
- ItemA Deep Learning Based Behavioral Approach to Indoor Autonomous Navigation(IEEE, 2018) Sepulveda Villalobos, Gabriel Andres; Niebles, Juan Carlos; Soto Arriaza, Álvaro MarceloWe present a semantically rich graph representation for indoor robotic navigation. Our graph representation encodes: semantic locations such as offices or corridors as nodes, and navigational behaviors such as enter office or cross a corridor as edges. In particular, our navigational behaviors operate directly from visual inputs to produce motor controls and are implemented with deep learning architectures. This enables the robot to avoid explicit computation of its precise location or the geometry of the environment, and enables navigation at a higher level of semantic abstraction. We evaluate the effectiveness of our representation by simulating navigation tasks in a large number of virtual environments. Our results show that using a simple sets of perceptual and navigational behaviors, the proposed approach can successfully guide the way of the robot as it completes navigational missions such as going to a specific office. Furthermore, our implementation shows to be effective to control the selection and switching of behaviors.
- ItemA differentiable adaptive computation time algorithm for neural networks(2021) Eyzaguirre, Cristóbal; Soto Arriaza, Álvaro Marcelo; Pontificia Universidad Católica de Chile. Escuela de IngenieríaA pesar de las mejoras sustanciales en los resultados que aportan los modelos de redes neuronales, su aplicación generalizada se ha visto limitada por su elevado coste computacional debido a redundancias presentes en este tipo de arquitecturas. M´as a´un, esta tesis postula que dichas ineficiencias no pueden resolverse completamente con métodos estáticos, debido a que algunas redundancias son intrínsecas al problema que se resuelve y, por lo tanto, son dependientes de los datos. Aunque en respuesta a este problema se han propuesto arquitecturas dinámicas que se adaptan a la entrada, todas ellas comparten la limitación de que no son totalmente diferenciables. Ante esta limitación común, nuestro trabajo propone la primera implementación de un algoritmo de tiempo de cómputo dinámico que es totalmente diferenciable: un algoritmo dinámico diferenciable de early exiting que llamamos DACT. Validamos las ventajas de nuestro enfoque, tanto en términos de resultados como de interpretabilidad, utilizando dos de los casos de uso más comunes, y descubrimos que el DACT puede conllevar: i) importantes ganancias de rendimiento cuando sustituye a los enfoques dinámicos existentes, o ii) eliminar las redundancias intrínsecas cuando se utiliza para complementar modelos estáticos. De hecho, en el dominio del procesamiento de lenguaje descubrimos que nuestro enfoque es mejor para reducir el número de bloques Transformer utilizados por los modelos BERT sin pérdida de desempeño en una serie de tareas. Del mismo modo, mostramos una reducción significativa en el número de pasos recurrentes necesarios cuando se aplica a la arquitectura MAC, superando los resultados tanto de los algoritmos adaptativos existentes como de aquellos estáticos comparables, a la vez que se mejora la transparencia del modelo. Además, nuestro modelo muestra una notable estabilidad, respondiendo de forma predecible a los cambios de los hiperparámetros, a la vez que equilibra la precisión y la complejidad de forma razonable.
- ItemA knowledge base approach to improve interpretability and performance of visual question answering task using deep learning models(2019) Riquelme Callejas, Felipe Antonio; Soto Arriaza, Álvaro Marcelo; Pontificia Universidad Católica de Chile. Escuela de IngenieríaLos modelos de Aprendizaje Profundo o Deep Learning son vistos y tratados como cajas negras. Dada una entrada, estos generan una salida a modo de respuesta. Pero no se tiene mas que una noción vaga de lo que llevó al modelo a responder lo que respondió. Sin embargo, en muchas aplicaciones (aplicaciones bancarias, compañías de seguros, asistentes personales, etc) es deseable o incluso necesario saber que llevó al modelo a generar una determinada respuesta. En este trabajo nos enfocamos en el desafío llamado Visual Question Answering (VQA). Este consiste en lograr que un modelo responda preguntas basadas en imágenes que se le presentan. Logramos incorporar una nueva Base de Conocimiento o knowledge base (KB) que contiene relaciones entre objetos del mundo real, lo que ayuda a mejorar la interpretabilidad y el desempeño del modelo mediante la identificación y extracción de información relevante acorde a cada pregunta e imagen que se presenta. La extracción de información de la KB fue supervisada directamente para generar un mapa de atención usado por el modelo para identificar las relaciones relevantes a cada pregunta e imagen. Se muestra cuantitativamente que las predicciones del modelo mejoran con la introducción de la KB. También mostramos cualitativamente la mejora en cuanto a interpretabilidad mediante la atención generada sobre las relaciones de la KB. Adicionalmente, mostramos cómo la KB ayuda a mejorar el desempeño en modelos de VQA que generan explicaciones. Los resultados obtenidos demuestran que el mecanismo de atención empleado en la KB ayuda mejorar la interpretabilidad del modelo. Y la información adicional extraída mejora la representacón interna de éste y por ende también el desempeño.Los modelos de Aprendizaje Profundo o Deep Learning son vistos y tratados como cajas negras. Dada una entrada, estos generan una salida a modo de respuesta. Pero no se tiene mas que una noción vaga de lo que llevó al modelo a responder lo que respondió. Sin embargo, en muchas aplicaciones (aplicaciones bancarias, compañías de seguros, asistentes personales, etc) es deseable o incluso necesario saber que llevó al modelo a generar una determinada respuesta. En este trabajo nos enfocamos en el desafío llamado Visual Question Answering (VQA). Este consiste en lograr que un modelo responda preguntas basadas en imágenes que se le presentan. Logramos incorporar una nueva Base de Conocimiento o knowledge base (KB) que contiene relaciones entre objetos del mundo real, lo que ayuda a mejorar la interpretabilidad y el desempeño del modelo mediante la identificación y extracción de información relevante acorde a cada pregunta e imagen que se presenta. La extracción de información de la KB fue supervisada directamente para generar un mapa de atención usado por el modelo para identificar las relaciones relevantes a cada pregunta e imagen. Se muestra cuantitativamente que las predicciones del modelo mejoran con la introducción de la KB. También mostramos cualitativamente la mejora en cuanto a interpretabilidad mediante la atención generada sobre las relaciones de la KB. Adicionalmente, mostramos cómo la KB ayuda a mejorar el desempeño en modelos de VQA que generan explicaciones. Los resultados obtenidos demuestran que el mecanismo de atención empleado en la KB ayuda mejorar la interpretabilidad del modelo. Y la información adicional extraída mejora la representacón interna de éste y por ende también el desempeño.Los modelos de Aprendizaje Profundo o Deep Learning son vistos y tratados como cajas negras. Dada una entrada, estos generan una salida a modo de respuesta. Pero no se tiene mas que una noción vaga de lo que llevó al modelo a responder lo que respondió. Sin embargo, en muchas aplicaciones (aplicaciones bancarias, compañías de seguros, asistentes personales, etc) es deseable o incluso necesario saber que llevó al modelo a generar una determinada respuesta. En este trabajo nos enfocamos en el desafío llamado Visual Question Answering (VQA). Este consiste en lograr que un modelo responda preguntas basadas en imágenes que se le presentan. Logramos incorporar una nueva Base de Conocimiento o knowledge base (KB) que contiene relaciones entre objetos del mundo real, lo que ayuda a mejorar la interpretabilidad y el desempeño del modelo mediante la identificación y extracción de información relevante acorde a cada pregunta e imagen que se presenta. La extracción de información de la KB fue supervisada directamente para generar un mapa de atención usado por el modelo para identificar las relaciones relevantes a cada pregunta e imagen. Se muestra cuantitativamente que las predicciones del modelo mejoran con la introducción de la KB. También mostramos cualitativamente la mejora en cuanto a interpretabilidad mediante la atención generada sobre las relaciones de la KB. Adicionalmente, mostramos cómo la KB ayuda a mejorar el desempeño en modelos de VQA que generan explicaciones. Los resultados obtenidos demuestran que el mecanismo de atención empleado en la KB ayuda mejorar la interpretabilidad del modelo. Y la información adicional extraída mejora la representacón interna de éste y por ende también el desempeño.
- ItemA proposal for supervised clustering with Dirichlet Process using labels(2016) Peralta, Billy; Caro, Alberto; Soto Arriaza, Álvaro Marcelo
- ItemA Survey on Deep Learning and Explainability for Automatic Report Generation from Medical Images(2022) Messina, Pablo; Pino, Pablo; Parra Santander, Denis; Soto Arriaza, Álvaro Marcelo; Besa, Cecilia; Uribe Arancibia, Sergio A.; Andía Kohnenkampf, Marcelo Edgardo; Tejos Núñez, Cristián Andrés; Prieto Vásquez, Claudia; Capurro, Daniel
- ItemActive visual localization for mobile robots(2007) Correa Villanueva, Javier; Soto Arriaza, Álvaro Marcelo; Pontificia Universidad Católica de Chile. Escuela de IngenieríaLa localización es un problema clave para la robótica móvil. Lograr una localización eficiente y robusta no es una tarea fácil, dado que un incremento en la robustez, implica una caída en la eficiencia y viceversa. Una forma de mejorar el proceso de localización es mediante la introducción de una estrategia de localización activa, en donde varios de los trabajos desarrollado se basan en la utilización del mismo movimiento del robot para lograr el comportamiento deseado. En este trabajo proponemos una estrategia de localización con sensores visuales activos. En nuestra propuesta separamos la acción de desplazamiento, de la acción de observación del robot. Para lograr esta separación, necesitamos la introducción de una etapa donde el robot sea capaz de seleccionar la mejor acción de observación posible, recurriendo a la ganancia de información para realizar la búsqueda de las posibles acciones.Así, la selección se plantea como la búsqueda de la acción más informativa para el proceso de localización.
- ItemActivity recognition in RGB-D videos using hierarchical and compositional energy-based models.(2018) Lillo Vallés, Iván Alberto; Soto Arriaza, Álvaro Marcelo; Pontificia Universidad Católica de Chile. Escuela de IngenieríaEl reconocimiento de actividades humanas en videos ha ganado gran interés en los últimos años. Varios métodos han sido propuestos, con diferente complejidad dependiendo del largo temporal de los videos, la modalidad de captura para adquirirlos, y el número de acciones ejecutadas por personas en una escena, entre otros. En este escenario, el reconocimiento de actividades complejas ha emergido como un tópico de activa investigación, ya que las personas pueden ejecutar múltiples acciones concurrentes tanto espacial como temporalmente en la misma escena. Esta tesis se enfoca en el reconocimiento de actividades complejas usando cámaras RGB-D, las cuales poseen sensores de profundidad que permiten capturar video RGB (apariencia) e información de profundidad en tiempo real en ambientes de interior (indoor). La estimación de pose 3D de las articulaciones de un cuerpo humano (esqueleto) está incluido en el software proveído por estos dispositivos, lo que ha hecho aumentar la investigación basada en poses 3D de esqueletos. Nuestro foco es el reconocimiento de actividades complejas, compuestas de acciones atómicas secuenciales y/o simultáneas, las que a su vez están compuestas por poses y movimientos de bajo nivel, enfocando el modelo en los movimientos de un sólo actor a la vez. Nuestra contribución es la creación de un modelo jerárquico-composicional en tres niveles de abstracción. En el nivel inferior, características geométricas y de movimiento son usadas para aprender automáticamente un diccionario de poses, cuyas entradas son usadas para codi car segmentos temporales de acciones atómicas a nivel de cuadro de video. En el nivel intermedio, composiciones de elementos del diccionario de poses, por separado en cada región de finida del cuerpo, son usadas para representar acciones atómicas, con una acción distinta para cada región, y donde además cada región se representa como una secuencia temporal de una o varias acciones atómicas. Finalmente, en el nivel superior, composiciones espaciales y temporales de acciones atómicas son ensambladas para representar actividades complejas, donde una actividad compleja es asignada a cada video. El proceso de aprendizaje de los parámetros del modelo es planteado como una optimización de función de energía, usando una formulación de máximo margen, donde cada pose y acción atómica es modelada como un clasi ficador lineal. Se presenta en esta tesis un modelo jerárquico base, el cual obtiene resultados satisfactorios en una base de datos de actividades complejas (Composable Activities Dataset). Adicionalmente, numerosas mejoras al modelo base son introducidas: (i) un cambio en representacióon de los clasi ficadores lineales de las acciones atómicas, que producen clasi ficadores ralos, donde las poses se especializan en pocas acciones atómicas; (ii) desde el video RGB, se extraen características de movimiento dentro de un pequeño lapso temporal, el cual se añade a las características geométricas del modelo base; (iii) se elabora una formulación alternativa más escalable, que no necesita de anotaciones espaciales de acciones atómicas, conservando sólo la supervisión temporal durante el entrenamiento; (iv) un modelo que incorpora flexibilidad de ejecución de poses y acciones atómicas, introduciendo motion poselets y actionlets; y (v) mecanismo para descartar poses no informativas, lo cual incrementa la robustez a errores comunes de estimación de pose. Los experimentos realizados muestran los benefi cios de usar un enfoque jerárquico que utiliza la composición de poses en acciones atómicas, y éstas en actividades complejas. En particular, el modelo resultante es capaz de identi ficar los intervalos temporales y las regiones espaciales donde ocurren las acciones atómicas, teniendo la interesante propiedad de que la salida del modelo provee de información intermedia semántica, en conjunto con una clasi ficación de la actividad del video completo en el nivel superior. El rendimiento de los métodos propuestos es evaluado usando múltiples bases de datos de reconocimiento de acciones. El modelo propuesto supera consistentemente modelos del estado del arte para reconocimiento de acciones complejas, mostrando cómo un modelo jerárquico y composicional es clave para inferir interacciones complejas usando representaciones semánticas simples como bloques constitutivos, que en nuestro caso son las poses inferidas y las acciones atómicas.
- ItemAn adaptive reading tutor using Markov models to develop phonological awareness(2008) Hurtado León, Esteban Andrés; Soto Arriaza, Álvaro Marcelo; Pontificia Universidad Católica de Chile. Escuela de IngenieríaLa conciencia fonológica, que es cierta forma de sensibilidad a la estructura sonora del lenguage, es una habilidad fundamental en el desarrollo de la lectura. Debe ser enseñada explícitamente y, de ser posible, de manera individualizada. En una sala de clase, es difícil entregar a cada niño atención personalizada, por lo cual resultaría beneficioso el contar con un sistema de enseñanza informatizado que se adapte automáticamente a cada niño. Tradicionalmente, los sistemas tutores inteligentes (ITS, por sus siglas en inglés), han sido utilizados para enseñar en dominios donde existe un modelo de la metacognición del alumno y/o del profesor.
- ItemAnálisis de la sintaxis aprendida por BETO, un modelo de lenguaje en español basado en transformers(2021) Quiñones, Alejandro; Soto Arriaza, Álvaro Marcelo; Pontificia Universidad Católica de Chile. Escuela de IngenieríaAvances en la interpretabilidad y comprensión de modelos como BERT han sido de utilidad para el desarrollo de mejores herramientas, más seguras y comprensibles. Sin embargo, muchas explicaciones del funcionamiento del modelo son en base a capacidades lingüísticas aprendidas, significando que los resultados son solo aplicables para los modelos basados en el inglés. En esta tesis se estudian las capacidades sintácticas de BETO, la versión de BERT en español, desarrollando la comprensión del modelo. Se muestra que BETO posee capacidades sintácticas, incluso mayores que las de BERT, presentes en distintas heads del modelo. Además, se realizan estudios con respecto a las competencias, limitaciones y estructura de este conocimiento. Se encuentra que las activaciones del modelo se producen en patrones similares cuando se procesan relaciones parecidas. Se indica que la principal causa para que el modelo falle en reconocer relaciones sintácticas es cuando éstas se estructuran de manera poco común. Se muestra que el modelo posee parte del contexto sintáctico que falla en reconocer, sugiriendo un desacuerdo en la formación del árbol sintáctico con respecto a las anotaciones originales. También, la falta de conocimiento sintáctico del modelo podría significar una reducción en su rendimiento al evaluarlo en responder preguntas. Por último, se demuestra que heads con bajo conocimiento sintáctico logran un alto reconocimiento de la sintaxis cuando trabajan en conjunto, indicando la presencia de un conocimiento distribuido.
- ItemAugmenting deep learning models using continual and meta learning strategies(2022) Hurtado González, Julio Andrés; Soto Arriaza, Álvaro Marcelo; Pontificia Universidad Católica de Chile. Escuela de IngenieríaLos modelos de aprendizaje profundo son entrenados con conjuntos de datos finitos con una distribución fija, y se prueban en conjuntos que siguen la misma distribución. Este proceso difiere mucho de como aprendemos los humanos, donde nos enfrentamos a diferentes situaciones que debemos aprender a resolver continuamente. Los modelos de aprendizaje profundo no son capaces de adaptarse continuamente a nuevas tareas o situaciones. Cuando un modelo ya entrenado se enfrenta con una nueva tarea, debe ser re entrenado para adaptarse a los nuevos datos. Este entrenamiento modifica completamente los pesos del modelo para enfocarse en la nueva tarea, causando que el modelo olvide lo previamente aprendido. Este problema es conocido como olvido catastrófico, y es el responsable de que el rendimiento de tareas entrenadas previamente baje drásticamente. En esta tesis nos enfocamos en dos ideas para aliviar el problema del olvido. La primera idea es aprender pesos que favorezcan la transferencia de conocimiento entre tareas, lo que disminuye la necesidad de modificar los pesos del modelo, reduciendo el olvido. La segunda idea es facilitar la reutilización de los pesos del modelo, es decir, entregar herramientas al modelo para que una nueva tarea utilice la información ya adquirida y la complemente con aprendizaje de la propia tarea. Las dos grandes contribuciones de esta tesis consisten en dos métodos que utilizan estas ideas para aliviar el problema del olvido catastrófico en problemas de aprendizaje continuo. Estas contribuciones muestran que incentivar la reutilización de los pesos es un factor importante para reducir el olvido.
- ItemBridging the visual semantic gap in VLN via semantically richer instructions(2022) Ossandón Stanke, Joaquín; Soto Arriaza, Álvaro Marcelo; Pontificia Universidad Católica de Chile. Escuela de IngenieríaLa tarea de Visual-and-Language Navigation (VLN) requiere entender complejas instrucciones de texto en lenguaje natural y navegar en un ambiente natural interior usando únicamente información visual. Mientras es una tarea trivial para el humano, sigue siendo un problema abierto para los modelos de inteligencia artificial. En este trabajo, planteamos como hipótesis que el mal uso de la información visual disponible es la razón principal del bajo rendimiento de los modelos actuales. Para apoyar esta hipótesis, presentamos evidencia experimental mostrando que modelos del estado del arte no son totalmente afectados cuando reciben limitada o incluso nula información visual, indicando un fuerte overfitting al texto de las instrucciones. Para fomentar un uso más adecuado de la información visual, proponemos un nuevo método de aumento de datos que fomenta la inclusión de información visual más explícita en la generación de instrucciones de navegación textuales. Nuestra intuición principal es que los conjuntos de datos actuales incluyen instrucciones textuales que tienen como objetivo informar a un navegante experto, como un ser humano, pero no a un agente de navegación visual principiante, como un modelo de deep learning inicializado aleatoriamente. Específicamente, para cerrar la brecha semántica visual de los conjuntos de datos actuales, aprovechamos los metadatos disponibles para el conjunto de datos Matterport3D que, entre otros, incluye información sobre etiquetas de objetos que están presentes en las escenas. Entrenando un modelo actual con el nuevo conjunto de instrucciones generado aumenta su rendimiento en un 8% en cuanto a tasa de éxito en entornos desconocidos, mientras que probar estas nuevas instrucciones en humanos supera a las instrucciones sintéticas disponibles, lo que demuestra las ventajas de la propuesta de aumento de datos.
- ItemCan a general-purpose commonsense ontology improve performance of learning-based image retrieval?(2015) Toro Icarte, Rodrigo Andrés; Baier Aranda, Jorge Andrés; Soto Arriaza, Álvaro Marcelo; Pontificia Universidad Católica de Chile. Escuela de IngenieríaLa comunidad de representación del conocimiento ha invertido grandes esfuerzos en la creación de ontologías de sentido común. Ellas poseen miles de relaciones sobre distintos aspectos del mundo cotidiano, por ejemplo “todo hombre es persona” o “los libros son usados para leer”. Dentro de esta gran cantidad de relaciones, algunas de ellas contienen información relevante sobre el mundo visual. Sin embargo, hasta la fecha, ningún algoritmo (que sea el estado del arte en alguna tarea de visión por computador) ha incorporad oeste conocimiento en forma explícita. Dichos algoritmos suelen utilizar técnicas de aprendizaje de máquina para aprender modelos de reconocimiento a partir de ejemplos (miles de ellos). En esta tesis estudiamos si una ontología de propósito general, específicamente ConceptNet (la ontología del MIT), puede, o no, tener un rol en el estado del arte de visión por computador. Elegimos sentence based image retrieval (búsqueda de imágenes mediante oraciones) como escenario de pruebas. Nuestro punto de partida es una red convolucional profunda que nos permite generar un algoritmo de image retrieval basado en detectores de palabras. Luego de eso presentamos una variante que incorpora relaciones de sentido común provenientes de ConceptNet. Como resultado, obtuvimos una mejora el estado del arte para la base de datos MSCOCO 5K.
- ItemCategory-level visual object recognition using novel machine learning techniques(2013) Peralta Márquez, Billy Mark; Soto Arriaza, Álvaro Marcelo; Pontificia Universidad Católica de Chile. Escuela de IngenieríaEl reconocimiento automático visual de objetos genéricos es un área muy importante de estudio. Sin embargo, variaciones intra-clase y pose tanto como ruido de fondo de imagen y oclusiones parciales son algunas de las principales dificultades para lograr este objetivo. Como ejemplo de aplicación, robots con un sistema de visión confiable pueden obtener un mayor nivel de autonomía y comprensión semántica de sus entornos. Enfoques actuales del estado de arte para reconocimiento visual de categoría de objetos son generalmente basados en dos pasos principales: generación de descriptores visuales y entrenamiento de clasificadores visuales usando estos descriptores e imágenes etiquetadas. Además, estos pasos son usualmente complementados con técnicas orientadas a incluir informacion contextual en los modelos. En esta tesis, nosotros contribuimos al área de reconocimiento visual proponiendo tres técnicas orientadas a mejorar respectivamente cada uno de los pasos previos.Primero, introducimos una técnica para contruir descriptores visuales basados en representación de bolsa de palabras (BoWs). A diferencia de enfoques actuales basados en técnicas de clustering no supervisado, nuestra propuesta combina información no supervisada y supervisada conduciendo a representaciones de BoWs más discriminativas. Luego, presentamos una técnica para mejorar la performance de clasificadores visuales actuales usando un enfoque de divide-y-vencerás basado en el enfoque de Mixtura de Expertos (MoE). Nosotros innovamos con respecto al estado de arte de las actuales técnicas de MoE al incorporar un esquema de selección local embebida de características dentro cada clasificador visual. Finalmente, proponemos un enfoque que aprovechar la información contextual para mejorar la performance de las técnicas de reconocimiento de objetos. Nosotros innovamos en relacion a técnicas del estado de arte al considerar las relaciones contextuales entre clases de objetos como dependientes de la escena. Nosotros probamos la performance de todas estas técnicas al aplicarlas a bases de datos estándares de prueba. Nuestros resultados validan nuestras principales hipótesis mostrando mejoras en relación a métodos alternativos del estado de arte. Esto también muestra que las ideas presentadas en esta tesis representan una contribución relevante en el área del reconocimiento de categoría de objetos.
- ItemCompactNets: Compact Hierarchical Compositional Networks for Visual Recognition(2020) Löbel Díaz, Hans-Albert; Vidal, R.; Soto Arriaza, Álvaro Marcelo
- ItemConstrucción de diccionarios visuales aplicados a reconocimiento de escenas(2018) Rojas Araya, Cristóbal; Soto Arriaza, Álvaro Marcelo; Pontificia Universidad Católica de Chile. Escuela de IngenieríaEl problema de la localización de un robot móvil en un mapa conocido, es una de las principales tareas que se necesita resolver cuando se busca entregar a un robot la capacidad de navegación autónoma. Una de las estrategias ampliamente utilizadas para resolver este problema consiste en obtener información del ambiente sólo con una cámara RGB y aplicar la representación de bolsas de palabras a las imágenes para crear el modelo. Aunque el método de bolsas de palabras visuales muestra buenos resultados, durante la construcción de la representación aplica el matching tradicional, técnica que no usa información sobre el problema durante su cálculo. Si pensamos en la gran variabilidad que pueden tener las imágenes capturadas por una cámara, el uso de esta técnica podría significar una desventaja de los métodos que la aplican. Es por esto que se plantea definir el matching como problema de clasificación, en busca de construir modelos que sean capaces de ajustarse al problema que resuelven. En este trabajo, se detallan tres modelos que resuelven un problema de localización, BoW que aplica el matching tradicional y ECOC-BoW que junto a ECOC-BoW-cluster definen el matching como problema de clasificación. El problema de clasificación para el proceso de matching es resuelto aplicando el clasificador ECOC. La evaluación de los modelos se realiza en 3 set de datos que definen mapas topológicos de diferentes ambientes. Estos sets de datos muestran diferentes dificultades dependiendo de la técnica aplicada y el lugar donde fueron capturadas. Los resultados muestran que el matching como problema de clasificación en el modelo ECOC-BoW-cluster logra mejoras respecto al matching tradicional, mientras que en el caso de ECOC-BoW el rendimiento es el más bajo de todos los modelos.
- ItemDEEPSOCNAV : social navigation by imitating human behaviors(2021) Vicente, Juan Pablo de; Soto Arriaza, Álvaro Marcelo; Pontificia Universidad Católica de Chile. Escuela de IngenieríaLas actuales representaciones 2D e interacciones basadas en coordenadas para la navegación social dejan de lado importantes relaciones y pistas visuales que pueden ser capturadas solamente a través de una vista en primera persona de la escena. Esto limita el rendimiento de modelos de navegación social del tipo data-driven. En este trabajo, proponemos aprovechar las herramientas de los motores de videojuegos actuales, -como Unity-, para transformar datasets preexistentes con vista de pájaro a datasets con vista en primera persona, y en particular una vista de profundidad. Además, demostramos los beneficios de usar data sintética generada por el motor de videojuegos para pre-entrenar un modelo de navegación. Para probar nuestras ideas, presentamos DeepSocNav, un modelo de aprendizaje profundo el cual toma ventaja de los datasets transformados y sintéticos, además de una estrategia auto-supervisada incluida en la forma de una tarea auxiliar. Esta tarea consiste en anticipar la siguiente imagen de profundidad que el agente verá. Nuestros experimentos muestran el beneficio del modelo propuesto el cual es capaz de superar baselines relevantes en términos de métricas sociales de navegación.
- ItemDiscriminative local subspaces in gene expression data for effective gene function prediction(2012) Puelma Peters, Tomás Francisco; Gutiérrez Ilabaca, Rodrigo Antonio; Soto Arriaza, Álvaro Marcelo
- ItemEmbedded local feature selection within mixture of experts(2014) Peralta Márquez, Billy Mark; Soto Arriaza, Álvaro Marcelo
- ItemEnhanced vision-language navigation by using scene recognition auxiliary task(2021) Manterola Valenzuela, Raimundo; Soto Arriaza, Álvaro Marcelo; Pontificia Universidad Católica de Chile. Escuela de IngenieríaVision-Language Navigation es una tarea cognitiva altamente exigente que abordada desde una perspectiva de Machine Learning, implica entrenar a un agente para navegar por diferentes escenarios siguiendo instrucciones en lenguaje natural. Esta tarea nos acerca un paso más a tener interacciones fluidas entre humanos y robots. Sin embargo, todavía existe una gran brecha entre el desempeño humano y los modelos actuales de Vision-Language Navigation. Las instrucciones suelen describir caminos que hacen referencia a lugares, por ejemplo, girar a la derecha al final de la cocina. Esto hace que sea necesario comprender la semántica de las diferentes habitaciones para lograr una correcta navegación. Sin embargo, esta comprensión por lo general no se supervisa directamente y se deja para ser aprendida de manera implícita. En este trabajo, proponemos una tarea auxiliar en la que los agentes deben clasificar los diferentes tipos de habitaciones por las que navegan, y demostramos empíricamente que al agregar esta tarea, los modelos aprenden a navegar mejor y de manera más eficiente. Esto se ve reflejado en un aumento en la mayoría de las métricas de Vision-Language Navigation tanto para escenarios vistos como no vistos durante la fase de entrenamiento.
- ItemEnhancing K-Means using class labels(2013) Peralta Márquez, Billy Mark; Espinace Ronda, Pablo Andrés; Soto Arriaza, Álvaro Marcelo
- «
- 1 (current)
- 2
- 3
- »