Conteo de personas en tiempo real usando visión estéreo de línea base amplia y GPGPU
Loading...
Files
Date
2009
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
El conteo automático de personas es un problema fundamental que debe ser abordado en muchos escenarios, como sistemas de control de operaciones inteligentes para el transporte público o de vigilancia automática, donde estadísticas precisas del flujo de personas son necesarias para funcionar correctamente. En la mayoría de los trabajos se han utilizado técnicas de visión monocular, logrando buen rendimiento en entornos controlados. Sin embargo, en escenarios complejos, estas pueden fallar debido a oclusión, iluminación u otros problemas relacionados. Esta situación podría solucionarse usando más fuentes de información visual, pero el aumento en el tiempo de cómputo debido al procesamiento adicional es demasiado alto para producir un sistema de conteo en tiempo real. A fin de evaluar esta alternativa, se desarrolló un sistema de visión estéreo de línea base amplia no calibrado de 2 vistas, que cuenta la gente entrando o saliendo de un sector predefinido. Además, el sistema trabaja en tiempo real gracias a una implementación paralela en GPU.
Este documento detalla todos los aspectos del sistema, incluyendo las técnicas utilizadas para calcular automáticamente la geometría epipolar del sistema, solucionar oclusiones y combinar la información de las vistas para realizar el conteo; y el detector de personas, desarrollado utilizando el entorno CUDA de NVIDIA para GPU. El sistema fue probado extensivamente con cuatro secuencias de video bifocales que totalizan 35 minutos y 98 personas. Los resultados confirman la validez del enfoque, logrando un aumento en la completitud promedio desde 0,80 a 0,91 con respecto al mismo sistema con una sola vista, mientras que la precisión promedio sube de 0,89 hasta 0,93. Además, el uso de GPU permite al sistema trabajar a 20 cuadros por segundo. Así, es posible inferir que el uso de más vistas generará un aumento del rendimiento global, sin un crecimiento excesivo del tiempo de ejecución.
Este documento detalla todos los aspectos del sistema, incluyendo las técnicas utilizadas para calcular automáticamente la geometría epipolar del sistema, solucionar oclusiones y combinar la información de las vistas para realizar el conteo; y el detector de personas, desarrollado utilizando el entorno CUDA de NVIDIA para GPU. El sistema fue probado extensivamente con cuatro secuencias de video bifocales que totalizan 35 minutos y 98 personas. Los resultados confirman la validez del enfoque, logrando un aumento en la completitud promedio desde 0,80 a 0,91 con respecto al mismo sistema con una sola vista, mientras que la precisión promedio sube de 0,89 hasta 0,93. Además, el uso de GPU permite al sistema trabajar a 20 cuadros por segundo. Así, es posible inferir que el uso de más vistas generará un aumento del rendimiento global, sin un crecimiento excesivo del tiempo de ejecución.
Description
Tesis (Magíster en Ciencias de la Ingeniería)--Pontificia Universidad Católica de Chile, 2009