Text-conditioned video action recognition under few shot and continual learning scenarios

Villa Ojeda, Andrés Felipe

Text-conditioned video action recognition under few shot and continual learning scenarios

dc.catalogador	pva
dc.contributor.advisor	Soto Arriaza, Álvaro Marcelo
dc.contributor.author	Villa Ojeda, Andrés Felipe
dc.contributor.other	Pontificia Universidad Católica de Chile. Escuela de Ingeniería
dc.date.accessioned	2023-07-11T14:50:08Z
dc.date.available	2023-07-11T14:50:08Z
dc.date.issued	2023
dc.description	Tesis (Doctor in Engineering Sciences)--Pontificia Universidad Católica de Chile, 2023
dc.description.abstract	Los seres humanos aprenden continuamente nuevas actividades con pocos ejemplos sin olvidar las aprendidas previamente, aprovechando la información multimodal (VisualLenguaje). Sin embargo, las redes neuronales modernas para el reconocimiento de acciones son entrenadas por completo en extensos conjuntos de datos etiquetados, ignorando las descripciones textuales que vienen naturalmente con los videos. En aplicaciones reales, los métodos basados en aprendizaje profundo rara vez involucran una sola etapa de entrenamiento debido a la disponibilidad de datos, las cuotas de almacenamiento, las regulaciones de privacidad y los costosos procesos de anotación. En su lugar, se les debe entrenar secuencialmente para manejar nuevos conjunto de acciones. Bajo estas condiciones, los métodos de aprendizaje profundo reducen significativamente el rendimiento en las acciones previamente aprendidas y requieren una gran cantidad de datos etiquetados. Estos problemas se abordan mediante aprendizaje continuo y Few-Shot learning, respectivamente. Few-Shot learning (FSL) y Aprendizaje continuo (CL) han sido poco explorados en el dominio de video. En esta tesis abordamos ambos problemas. Primero, proponemos TNT, una red condicionada por texto con inferencia transductiva que explota las descripciones textuales para adaptar el conocimiento general de la red para mejorar la discriminación de clases en un escenario de FSL. En segundo lugar, presentamos a vCLIMB, un novedoso banco de pruebas estandarizado para analizar el olvido catastrófico de los modelos en un escenario de aprendizaje continuo en video. Asimismo, nuestra tercera solución, PIVOT, es una estrategia novedosa para CL en el dominio de video que aprovecha el conocimiento multimodal amplio y general de CLIP a través de un enfoque basado en prompting y un clasificador multimodal. Los métodos propuestos superan los modelos del estado del arte más desafiantes por un amplio margen en ambos escenarios, lo que demuestra que la información multimodal (video-texto) es esencial para aprender sin olvidar con pocas muestras etiquetadas.
dc.fechaingreso.objetodigital	2023-07-11
dc.format.extent	xvi, 73 páginas
dc.fuente.origen	SRIA
dc.identifier.doi	10.7764/tesisUC/ING/74160
dc.identifier.uri	https://doi.org/10.7764/tesisUC/ING/74160
dc.identifier.uri	https://repositorio.uc.cl/handle/11534/74160
dc.information.autoruc	Escuela de ingeniería ; Soto Arriaza, Álvaro Marcelo ; S/I ; 73678
dc.information.autoruc	Escuela de ingeniería ; Villa Ojeda, Andrés Felipe ; S/I ; 1092267
dc.language.iso	en
dc.nota.acceso	Contenido completo
dc.rights	acceso abierto
dc.subject	Aprendizaje continuo	es_ES
dc.subject	Few-Shot learning	es_ES
dc.subject	Multimodalidad	es_ES
dc.subject	Adaptación de conocimiento	es_ES
dc.subject	Prompting	es_ES
dc.subject	Olvido catastrófico	es_ES
dc.subject	Clasificación de acciones en video	es_ES
dc.subject.ddc	620
dc.subject.dewey	Ingeniería	es_ES
dc.subject.ods	04 Quality education
dc.subject.odspa	04 Educación de calidad
dc.title	Text-conditioned video action recognition under few shot and continual learning scenarios	es_ES
dc.type	tesis doctoral
sipa.codpersvinculados	73678
sipa.codpersvinculados	1092267

Files

Original bundle

Now showing 1 - 1 of 1

Name:: Tesis_AndresVilla.pdf
Size:: 1.69 MB
Format:: Adobe Portable Document Format
Description:

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.98 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

3.01 Tesis doctorado