Can a general-purpose commonsense ontology improve performance of learning-based image retrieval?
Loading...
Date
2015
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
La comunidad de representación del conocimiento ha invertido grandes esfuerzos en la creación de ontologías de sentido común. Ellas poseen miles de relaciones sobre distintos aspectos del mundo cotidiano, por ejemplo “todo hombre es persona” o “los libros son usados para leer”. Dentro de esta gran cantidad de relaciones, algunas de ellas contienen información relevante sobre el mundo visual. Sin embargo, hasta la fecha, ningún algoritmo (que sea el estado del arte en alguna tarea de visión por computador) ha incorporad oeste conocimiento en forma explícita. Dichos algoritmos suelen utilizar técnicas de aprendizaje de máquina para aprender modelos de reconocimiento a partir de ejemplos (miles de ellos). En esta tesis estudiamos si una ontología de propósito general, específicamente ConceptNet (la ontología del MIT), puede, o no, tener un rol en el estado del arte de visión por computador. Elegimos sentence based image retrieval (búsqueda de imágenes mediante oraciones) como escenario de pruebas. Nuestro punto de partida es una red convolucional profunda que nos permite generar un algoritmo de image retrieval basado en detectores de palabras. Luego de eso presentamos una variante que incorpora relaciones de sentido común provenientes de ConceptNet. Como resultado, obtuvimos una mejora el estado del arte para la base de datos MSCOCO 5K.
Description
Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2015