A sliding-box approach to detecting people in images of indoor environments using wide-baseline stereo camera systems

Loading...
Thumbnail Image
Date
2015
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
En las últimas dos décadas ha aumentado masivamente el uso de cámaras en sistemas de vigilancia y monitoreo de actividades, haciendo difícil su seguimiento el 100% del tiempo por operadores humanos. La detección de personas ha provocado gran interés en investigadores de la comunidad de visión por computador, con el fin de generar herramientas de vigilancia automática. Los primeros trabajos de detección se basaron fuertemente en técnicas de procesamiento de imágenes, las que a pesar de su rapidez y simplicidad son sensibles a los cambios de iluminación, oclusión, y variación de las poses humanas. Actualmente, los enfoques de aprendizaje de máquina basados en ventanas deslizantes han tenido éxito significativo en la detección de personas. Este éxito se debe en parte al uso de poderosos modelos de aprendizaje de máquina, características visuales nuevas y más informativas y modelos basados en partes capaces de manejar la variabilidad de los objetos. Un denominador común de estas técnicas es que ellos confian principalmente en métodos de aprendizaje estadístico que usa información de la intensidad de las imágenes para capturar las características de apariencia de los objetos. Una limitación importante de estos enfoques basados en apariencia es que no incorporan información geométrica relevante que provea pistas espaciales tales como el tamaño real de los objetos a detectar, profundidad o la ubicación más probable de estos objetos en la escena. Algunos trabajos recientes consideran el beneficio de incorporar información de varios puntos de vista. La detección usando una sola cámara es apropiada cuando existe oclusión leve, sin embargo, para casos de mayor oclusión el uso de múltiples vistas permite mejorar la detección.
A pesar de que existen técnicas para relacionar la información en múltiples vistas, aún quedan desafíos importantes que resolver. En esta tesis, proponemos un enfoque para detección de personas que une avances en detección basada en aprendizaje de máquina con geometría de múltiples vistas. La idea principal de nuestro método es barrer un volumen virtual a través del espacio con el fin de analizar sólo la parte de las imágenes donde este elemento es proyectado. Este esquema nos permite resolver problemas relacionados al establecimiento de correspondencias entre cámaras, incluir información espacial, y enriquecer los modelos de detección usando características enriquecidas. Este documento describe nuestro enfoque y su evaluación en detección de personas en ambientes interiores. Los experimentos demuestran que nuestro método mejora detectores 2D del estado del arte en 10% respecto del precision-recall promedio de su mejor vista, usando iguales condiciones de entrenamiento. Los resultados muestran que nuestro enfoque puede ser usado efectivamente para detección de personas en sistemas de múltiples vistas.
Description
Tesis (Doctor in Engineering Sciences)--Pontificia Universidad Católica de Chile, 2015
Keywords
Citation