Supervised detection of anomalous light-curves in massive astronomical catalogs.

Loading...
Thumbnail Image
Date
2014
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
El desarrollo de sondeos sinópticos del cielo en los últimos años ha generado cantidades masivas de datos. Su análisis requiere por lo tanto recursos que superan las capacidades humanas. Por esta razón, las técnicas de aprendizaje de máquina se han vuelto esenciales para procesar esta información y extraer todo el conocimiento posible. En este trabajo se presenta una nueva metodología automática para descubrir objetos anómalos en grandes catálogos astronómicos. De manera de aprovechar toda la información que se tiene de estos objetos, el método propuesto se basa en un algoritmo supervisado. En particular, se entrena un clasificador random forest con objetos de clases conocidas y se obtienen los votos de clasificación para cada uno de ellos. En una segunda instancia, se modela la repartición de estos votos con una red de Bayes consiguiendo así su distribución conjunta. La idea tras de esto es que un objeto desconocido podrá ser detectado como anomalía en la medida que sus votos de clasificación tengan una baja probabilidad conjunta bajo este modelo. Nuestro método es apropiado para explorar bases de datos masivas dado que el proceso de entrenamiento se realiza de forma offline. Testeamos nuestro algoritmo en 20 millones de curvas de luz del catálogo MACHO y generamos una lista de candidatos anómalos. Luego de realizar un análisis, los dividimos en dos clases principales de anomalías: artefactos y anomalías intrínsecas. Los artefactos se deben principalmente a variaciones de la masa de aire, cambios estacionales, mala calibración o errores instrumentales y fueron por lo tanto removidos de la lista de anomalías y agregados al set de entrenamiento. Después de re-entrenar y ejecutar nuevamente el modelo llevamos a cabo una fase de post-análisis consistente en buscar información de los candidatos en todos los catálogos públicos disponibles. Dentro de nuestra lista identificamos ciertos objetos escasos pero conocidos tales como estrellas Cefeidas, variables azules, variables cataclísmicas y fuentes de rayos X. Sin embargo, para ciertas anomalías no se encontró información adicional. Fuimos capaces de agrupar algunas de estas en nuevas clases variables. No obstante, otras, que emergieron como únicas en su comportamiento, tendrán que ser examinadas por telescopios de manera de realizar un análisis en profundidad.El desarrollo de sondeos sinópticos del cielo en los últimos años ha generado cantidades masivas de datos. Su análisis requiere por lo tanto recursos que superan las capacidades humanas. Por esta razón, las técnicas de aprendizaje de máquina se han vuelto esenciales para procesar esta información y extraer todo el conocimiento posible. En este trabajo se presenta una nueva metodología automática para descubrir objetos anómalos en grandes catálogos astronómicos. De manera de aprovechar toda la información que se tiene de estos objetos, el método propuesto se basa en un algoritmo supervisado. En particular, se entrena un clasificador random forest con objetos de clases conocidas y se obtienen los votos de clasificación para cada uno de ellos. En una segunda instancia, se modela la repartición de estos votos con una red de Bayes consiguiendo así su distribución conjunta. La idea tras de esto es que un objeto desconocido podrá ser detectado como anomalía en la medida que sus votos de clasificación tengan una baja probabilidad conjunta bajo este modelo. Nuestro método es apropiado para explorar bases de datos masivas dado que el proceso de entrenamiento se realiza de forma offline. Testeamos nuestro algoritmo en 20 millones de curvas de luz del catálogo MACHO y generamos una lista de candidatos anómalos. Luego de realizar un análisis, los dividimos en dos clases principales de anomalías: artefactos y anomalías intrínsecas. Los artefactos se deben principalmente a variaciones de la masa de aire, cambios estacionales, mala calibración o errores instrumentales y fueron por lo tanto removidos de la lista de anomalías y agregados al set de entrenamiento. Después de re-entrenar y ejecutar nuevamente el modelo llevamos a cabo una fase de post-análisis consistente en buscar información de los candidatos en todos los catálogos públicos disponibles. Dentro de nuestra lista identificamos ciertos objetos escasos pero conocidos tales como estrellas Cefeidas, variables azules, variables cataclísmicas y fuentes de rayos X. Sin embargo, para ciertas anomalías no se encontró información adicional. Fuimos capaces de agrupar algunas de estas en nuevas clases variables. No obstante, otras, que emergieron como únicas en su comportamiento, tendrán que ser examinadas por telescopios de manera de realizar un análisis en profundidad.
Description
Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2014
Keywords
Citation