Can a general-purpose commonsense ontology improve performance of learning-based image retrieval?

Toro Icarte, Rodrigo Andrés

Can a general-purpose commonsense ontology improve performance of learning-based image retrieval?

Files

Toro_Rodrigo.pdf(9.58 MB)

Date

2015

Authors

Toro Icarte, Rodrigo Andrés

Abstract

La comunidad de representación del conocimiento ha invertido grandes esfuerzos en la creación de ontologías de sentido común. Ellas poseen miles de relaciones sobre distintos aspectos del mundo cotidiano, por ejemplo “todo hombre es persona” o “los libros son usados para leer”. Dentro de esta gran cantidad de relaciones, algunas de ellas contienen información relevante sobre el mundo visual. Sin embargo, hasta la fecha, ningún algoritmo (que sea el estado del arte en alguna tarea de visión por computador) ha incorporad oeste conocimiento en forma explícita. Dichos algoritmos suelen utilizar técnicas de aprendizaje de máquina para aprender modelos de reconocimiento a partir de ejemplos (miles de ellos). En esta tesis estudiamos si una ontología de propósito general, específicamente ConceptNet (la ontología del MIT), puede, o no, tener un rol en el estado del arte de visión por computador. Elegimos sentence based image retrieval (búsqueda de imágenes mediante oraciones) como escenario de pruebas. Nuestro punto de partida es una red convolucional profunda que nos permite generar un algoritmo de image retrieval basado en detectores de palabras. Luego de eso presentamos una variante que incorpora relaciones de sentido común provenientes de ConceptNet. Como resultado, obtuvimos una mejora el estado del arte para la base de datos MSCOCO 5K.

Description

Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2015

URI

https://doi.org/10.7764/tesisUC/ING/21366
https://repositorio.uc.cl/handle/11534/21366

Collections

ING Tesis magíster

Full item page