A knowledge base approach to improve interpretability and performance of visual question answering task using deep learning models

dc.contributor.advisorSoto Arriaza, Álvaro Marcelo
dc.contributor.authorRiquelme Callejas, Felipe Antonio
dc.contributor.otherPontificia Universidad Católica de Chile. Escuela de Ingeniería
dc.date.accessioned2020-07-07T19:06:38Z
dc.date.available2020-07-07T19:06:38Z
dc.date.issued2019
dc.descriptionTesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2019
dc.description.abstractLos modelos de Aprendizaje Profundo o Deep Learning son vistos y tratados como cajas negras. Dada una entrada, estos generan una salida a modo de respuesta. Pero no se tiene mas que una noción vaga de lo que llevó al modelo a responder lo que respondió. Sin embargo, en muchas aplicaciones (aplicaciones bancarias, compañías de seguros, asistentes personales, etc) es deseable o incluso necesario saber que llevó al modelo a generar una determinada respuesta. En este trabajo nos enfocamos en el desafío llamado Visual Question Answering (VQA). Este consiste en lograr que un modelo responda preguntas basadas en imágenes que se le presentan. Logramos incorporar una nueva Base de Conocimiento o knowledge base (KB) que contiene relaciones entre objetos del mundo real, lo que ayuda a mejorar la interpretabilidad y el desempeño del modelo mediante la identificación y extracción de información relevante acorde a cada pregunta e imagen que se presenta. La extracción de información de la KB fue supervisada directamente para generar un mapa de atención usado por el modelo para identificar las relaciones relevantes a cada pregunta e imagen. Se muestra cuantitativamente que las predicciones del modelo mejoran con la introducción de la KB. También mostramos cualitativamente la mejora en cuanto a interpretabilidad mediante la atención generada sobre las relaciones de la KB. Adicionalmente, mostramos cómo la KB ayuda a mejorar el desempeño en modelos de VQA que generan explicaciones. Los resultados obtenidos demuestran que el mecanismo de atención empleado en la KB ayuda mejorar la interpretabilidad del modelo. Y la información adicional extraída mejora la representacón interna de éste y por ende también el desempeño.Los modelos de Aprendizaje Profundo o Deep Learning son vistos y tratados como cajas negras. Dada una entrada, estos generan una salida a modo de respuesta. Pero no se tiene mas que una noción vaga de lo que llevó al modelo a responder lo que respondió. Sin embargo, en muchas aplicaciones (aplicaciones bancarias, compañías de seguros, asistentes personales, etc) es deseable o incluso necesario saber que llevó al modelo a generar una determinada respuesta. En este trabajo nos enfocamos en el desafío llamado Visual Question Answering (VQA). Este consiste en lograr que un modelo responda preguntas basadas en imágenes que se le presentan. Logramos incorporar una nueva Base de Conocimiento o knowledge base (KB) que contiene relaciones entre objetos del mundo real, lo que ayuda a mejorar la interpretabilidad y el desempeño del modelo mediante la identificación y extracción de información relevante acorde a cada pregunta e imagen que se presenta. La extracción de información de la KB fue supervisada directamente para generar un mapa de atención usado por el modelo para identificar las relaciones relevantes a cada pregunta e imagen. Se muestra cuantitativamente que las predicciones del modelo mejoran con la introducción de la KB. También mostramos cualitativamente la mejora en cuanto a interpretabilidad mediante la atención generada sobre las relaciones de la KB. Adicionalmente, mostramos cómo la KB ayuda a mejorar el desempeño en modelos de VQA que generan explicaciones. Los resultados obtenidos demuestran que el mecanismo de atención empleado en la KB ayuda mejorar la interpretabilidad del modelo. Y la información adicional extraída mejora la representacón interna de éste y por ende también el desempeño.Los modelos de Aprendizaje Profundo o Deep Learning son vistos y tratados como cajas negras. Dada una entrada, estos generan una salida a modo de respuesta. Pero no se tiene mas que una noción vaga de lo que llevó al modelo a responder lo que respondió. Sin embargo, en muchas aplicaciones (aplicaciones bancarias, compañías de seguros, asistentes personales, etc) es deseable o incluso necesario saber que llevó al modelo a generar una determinada respuesta. En este trabajo nos enfocamos en el desafío llamado Visual Question Answering (VQA). Este consiste en lograr que un modelo responda preguntas basadas en imágenes que se le presentan. Logramos incorporar una nueva Base de Conocimiento o knowledge base (KB) que contiene relaciones entre objetos del mundo real, lo que ayuda a mejorar la interpretabilidad y el desempeño del modelo mediante la identificación y extracción de información relevante acorde a cada pregunta e imagen que se presenta. La extracción de información de la KB fue supervisada directamente para generar un mapa de atención usado por el modelo para identificar las relaciones relevantes a cada pregunta e imagen. Se muestra cuantitativamente que las predicciones del modelo mejoran con la introducción de la KB. También mostramos cualitativamente la mejora en cuanto a interpretabilidad mediante la atención generada sobre las relaciones de la KB. Adicionalmente, mostramos cómo la KB ayuda a mejorar el desempeño en modelos de VQA que generan explicaciones. Los resultados obtenidos demuestran que el mecanismo de atención empleado en la KB ayuda mejorar la interpretabilidad del modelo. Y la información adicional extraída mejora la representacón interna de éste y por ende también el desempeño.
dc.format.extentxii, 47 páginas
dc.identifier.doi10.7764/tesisUC/ING/31491
dc.identifier.urihttps://doi.org/10.7764/tesisUC/ING/31491
dc.identifier.urihttps://repositorio.uc.cl/handle/11534/31491
dc.language.isoen
dc.nota.accesoContenido completo
dc.rightsacceso abierto
dc.subject.ddc006.4
dc.subject.deweyCiencias de la computaciónes_ES
dc.subject.otherSistemas de representación de informaciónes_ES
dc.subject.otherAprendizaje de máquinaes_ES
dc.subject.otherVisión por computadores_ES
dc.titleA knowledge base approach to improve interpretability and performance of visual question answering task using deep learning modelses_ES
dc.typetesis de maestría
sipa.codpersvinculados73678
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
TESIS_FRiquelme_Firma Final.pdf
Size:
14.74 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.31 KB
Format:
Item-specific license agreed upon to submission
Description: