Activity recognition in RGB-D videos using hierarchical and compositional energy-based models.

Loading...
Thumbnail Image
Date
2018
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
El reconocimiento de actividades humanas en videos ha ganado gran interés en los últimos años. Varios métodos han sido propuestos, con diferente complejidad dependiendo del largo temporal de los videos, la modalidad de captura para adquirirlos, y el número de acciones ejecutadas por personas en una escena, entre otros. En este escenario, el reconocimiento de actividades complejas ha emergido como un tópico de activa investigación, ya que las personas pueden ejecutar múltiples acciones concurrentes tanto espacial como temporalmente en la misma escena. Esta tesis se enfoca en el reconocimiento de actividades complejas usando cámaras RGB-D, las cuales poseen sensores de profundidad que permiten capturar video RGB (apariencia) e información de profundidad en tiempo real en ambientes de interior (indoor). La estimación de pose 3D de las articulaciones de un cuerpo humano (esqueleto) está incluido en el software proveído por estos dispositivos, lo que ha hecho aumentar la investigación basada en poses 3D de esqueletos. Nuestro foco es el reconocimiento de actividades complejas, compuestas de acciones atómicas secuenciales y/o simultáneas, las que a su vez están compuestas por poses y movimientos de bajo nivel, enfocando el modelo en los movimientos de un sólo actor a la vez. Nuestra contribución es la creación de un modelo jerárquico-composicional en tres niveles de abstracción. En el nivel inferior, características geométricas y de movimiento son usadas para aprender automáticamente un diccionario de poses, cuyas entradas son usadas para codi car segmentos temporales de acciones atómicas a nivel de cuadro de video. En el nivel intermedio, composiciones de elementos del diccionario de poses, por separado en cada región de finida del cuerpo, son usadas para representar acciones atómicas, con una acción distinta para cada región, y donde además cada región se representa como una secuencia temporal de una o varias acciones atómicas. Finalmente, en el nivel superior, composiciones espaciales y temporales de acciones atómicas son ensambladas para representar actividades complejas, donde una actividad compleja es asignada a cada video. El proceso de aprendizaje de los parámetros del modelo es planteado como una optimización de función de energía, usando una formulación de máximo margen, donde cada pose y acción atómica es modelada como un clasi ficador lineal. Se presenta en esta tesis un modelo jerárquico base, el cual obtiene resultados satisfactorios en una base de datos de actividades complejas (Composable Activities Dataset). Adicionalmente, numerosas mejoras al modelo base son introducidas: (i) un cambio en representacióon de los clasi ficadores lineales de las acciones atómicas, que producen clasi ficadores ralos, donde las poses se especializan en pocas acciones atómicas; (ii) desde el video RGB, se extraen características de movimiento dentro de un pequeño lapso temporal, el cual se añade a las características geométricas del modelo base; (iii) se elabora una formulación alternativa más escalable, que no necesita de anotaciones espaciales de acciones atómicas, conservando sólo la supervisión temporal durante el entrenamiento; (iv) un modelo que incorpora flexibilidad de ejecución de poses y acciones atómicas, introduciendo motion poselets y actionlets; y (v) mecanismo para descartar poses no informativas, lo cual incrementa la robustez a errores comunes de estimación de pose. Los experimentos realizados muestran los benefi cios de usar un enfoque jerárquico que utiliza la composición de poses en acciones atómicas, y éstas en actividades complejas. En particular, el modelo resultante es capaz de identi ficar los intervalos temporales y las regiones espaciales donde ocurren las acciones atómicas, teniendo la interesante propiedad de que la salida del modelo provee de información intermedia semántica, en conjunto con una clasi ficación de la actividad del video completo en el nivel superior. El rendimiento de los métodos propuestos es evaluado usando múltiples bases de datos de reconocimiento de acciones. El modelo propuesto supera consistentemente modelos del estado del arte para reconocimiento de acciones complejas, mostrando cómo un modelo jerárquico y composicional es clave para inferir interacciones complejas usando representaciones semánticas simples como bloques constitutivos, que en nuestro caso son las poses inferidas y las acciones atómicas.
Description
Tesis (Doctor in Engineering Science)--Pontificia Universidad Católica de Chile, 2018
Keywords
Citation