Text-conditioned video action recognition under few shot and continual learning scenarios

Villa Ojeda, Andrés Felipe

Text-conditioned video action recognition under few shot and continual learning scenarios

Files

Tesis_AndresVilla.pdf(1.69 MB)

Date

2023

Authors

Villa Ojeda, Andrés Felipe

Abstract

Los seres humanos aprenden continuamente nuevas actividades con pocos ejemplos sin olvidar las aprendidas previamente, aprovechando la información multimodal (VisualLenguaje). Sin embargo, las redes neuronales modernas para el reconocimiento de acciones son entrenadas por completo en extensos conjuntos de datos etiquetados, ignorando las descripciones textuales que vienen naturalmente con los videos. En aplicaciones reales, los métodos basados en aprendizaje profundo rara vez involucran una sola etapa de entrenamiento debido a la disponibilidad de datos, las cuotas de almacenamiento, las regulaciones de privacidad y los costosos procesos de anotación. En su lugar, se les debe entrenar secuencialmente para manejar nuevos conjunto de acciones. Bajo estas condiciones, los métodos de aprendizaje profundo reducen significativamente el rendimiento en las acciones previamente aprendidas y requieren una gran cantidad de datos etiquetados. Estos problemas se abordan mediante aprendizaje continuo y Few-Shot learning, respectivamente. Few-Shot learning (FSL) y Aprendizaje continuo (CL) han sido poco explorados en el dominio de video. En esta tesis abordamos ambos problemas. Primero, proponemos TNT, una red condicionada por texto con inferencia transductiva que explota las descripciones textuales para adaptar el conocimiento general de la red para mejorar la discriminación de clases en un escenario de FSL. En segundo lugar, presentamos a vCLIMB, un novedoso banco de pruebas estandarizado para analizar el olvido catastrófico de los modelos en un escenario de aprendizaje continuo en video. Asimismo, nuestra tercera solución, PIVOT, es una estrategia novedosa para CL en el dominio de video que aprovecha el conocimiento multimodal amplio y general de CLIP a través de un enfoque basado en prompting y un clasificador multimodal. Los métodos propuestos superan los modelos del estado del arte más desafiantes por un amplio margen en ambos escenarios, lo que demuestra que la información multimodal (video-texto) es esencial para aprender sin olvidar con pocas muestras etiquetadas.

Description

Tesis (Doctor in Engineering Sciences)--Pontificia Universidad Católica de Chile, 2023

Keywords

Aprendizaje continuo, Few-Shot learning, Multimodalidad, Adaptación de conocimiento, Prompting, Olvido catastrófico, Clasificación de acciones en video

URI

https://doi.org/10.7764/tesisUC/ING/74160
https://repositorio.uc.cl/handle/11534/74160

Collections

3.01 Tesis doctorado

Full item page