Text-conditioned video action recognition under few shot and continual learning scenarios

dc.catalogadorpva
dc.contributor.advisorSoto Arriaza, Álvaro Marcelo
dc.contributor.authorVilla Ojeda, Andrés Felipe
dc.contributor.otherPontificia Universidad Católica de Chile. Escuela de Ingeniería
dc.date.accessioned2023-07-11T14:50:08Z
dc.date.available2023-07-11T14:50:08Z
dc.date.issued2023
dc.descriptionTesis (Doctor in Engineering Sciences)--Pontificia Universidad Católica de Chile, 2023
dc.description.abstractLos seres humanos aprenden continuamente nuevas actividades con pocos ejemplos sin olvidar las aprendidas previamente, aprovechando la información multimodal (VisualLenguaje). Sin embargo, las redes neuronales modernas para el reconocimiento de acciones son entrenadas por completo en extensos conjuntos de datos etiquetados, ignorando las descripciones textuales que vienen naturalmente con los videos. En aplicaciones reales, los métodos basados en aprendizaje profundo rara vez involucran una sola etapa de entrenamiento debido a la disponibilidad de datos, las cuotas de almacenamiento, las regulaciones de privacidad y los costosos procesos de anotación. En su lugar, se les debe entrenar secuencialmente para manejar nuevos conjunto de acciones. Bajo estas condiciones, los métodos de aprendizaje profundo reducen significativamente el rendimiento en las acciones previamente aprendidas y requieren una gran cantidad de datos etiquetados. Estos problemas se abordan mediante aprendizaje continuo y Few-Shot learning, respectivamente. Few-Shot learning (FSL) y Aprendizaje continuo (CL) han sido poco explorados en el dominio de video. En esta tesis abordamos ambos problemas. Primero, proponemos TNT, una red condicionada por texto con inferencia transductiva que explota las descripciones textuales para adaptar el conocimiento general de la red para mejorar la discriminación de clases en un escenario de FSL. En segundo lugar, presentamos a vCLIMB, un novedoso banco de pruebas estandarizado para analizar el olvido catastrófico de los modelos en un escenario de aprendizaje continuo en video. Asimismo, nuestra tercera solución, PIVOT, es una estrategia novedosa para CL en el dominio de video que aprovecha el conocimiento multimodal amplio y general de CLIP a través de un enfoque basado en prompting y un clasificador multimodal. Los métodos propuestos superan los modelos del estado del arte más desafiantes por un amplio margen en ambos escenarios, lo que demuestra que la información multimodal (video-texto) es esencial para aprender sin olvidar con pocas muestras etiquetadas.
dc.fechaingreso.objetodigital2023-07-11
dc.format.extentxvi, 73 páginas
dc.fuente.origenSRIA
dc.identifier.doi10.7764/tesisUC/ING/74160
dc.identifier.urihttps://doi.org/10.7764/tesisUC/ING/74160
dc.identifier.urihttps://repositorio.uc.cl/handle/11534/74160
dc.information.autorucEscuela de ingeniería ; Soto Arriaza, Álvaro Marcelo ; S/I ; 73678
dc.information.autorucEscuela de ingeniería ; Villa Ojeda, Andrés Felipe ; S/I ; 1092267
dc.language.isoen
dc.nota.accesoContenido completo
dc.rightsacceso abierto
dc.subjectAprendizaje continuoes_ES
dc.subjectFew-Shot learninges_ES
dc.subjectMultimodalidades_ES
dc.subjectAdaptación de conocimientoes_ES
dc.subjectPromptinges_ES
dc.subjectOlvido catastróficoes_ES
dc.subjectClasificación de acciones en videoes_ES
dc.subject.ddc620
dc.subject.deweyIngenieríaes_ES
dc.subject.ods04 Quality education
dc.subject.odspa04 Educación de calidad
dc.titleText-conditioned video action recognition under few shot and continual learning scenarioses_ES
dc.typetesis doctoral
sipa.codpersvinculados73678
sipa.codpersvinculados1092267
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Tesis_AndresVilla.pdf
Size:
1.69 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.98 KB
Format:
Item-specific license agreed upon to submission
Description: