A full probabilistic model for yes/no type crowdsourcing in multi-class classification
Loading...
Date
2017
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Crowdsourcing se ha convertido en una técnica ampliamente adoptada en escenarios donde los conjuntos de entrenamiento para modelos supervisados son escasos y difíciles de obtener. La mayoría de los modelos de crowdsourcing en la literatura asumen que los anotadores pueden proporcionar respuestas para preguntas completas, éstas se refieren a preguntarle a un anotador que discierna entre todas las clases posibles para un objeto. Desafortunadamente, ese discernimiento no siempre es fácil en escenarios realistas, pueden haber muchas clases donde se desconoce cómo diferenciarlas. En este trabajo, se propone un modelo probabilístico para un tipo más corto y fácil de preguntas. Estas preguntas más simples sólo requieren una respuesta del tipo “sí” o “no”. Este modelo estima una distribución posterior conjunta de matrices relacionadas con las confusiones y errores de los anotadores, además de la probabilidad posterior de la clase de cada objeto. La solución se lleva a cabo mediante inferencia aproximada, se usa en primer lugar muestreo de Monte Carlo y en segundo lugar el método de Inferencia Variacional como Caja Negra (BBVI). Para este último enfoque se provee la derivación de los gradientes necesarios para la aproximación del modelo. Se construyeron dos escenarios web reales de crowdsourcing, donde anotadores fueron invitados a participar. En el primer escenario se muestran series de tiempo astronómicas a ingenieros y astrónomos. El segundo escenario se basa en clasificación de animales mediante la observación de imágenes. Los resultados muestran que es posible lograr resultados comparables con la pregunta completa para clasificación en crowdsourcing. Además, se prueba que tomar muestras de cómo los anotadores se equivocan al responder preguntas es importante para la convergencia del modelo. Finalmente, se deja disponible para la comunidad los dos conjuntos de datos obtenidos desde los experimentos reales generados. Todo el código está públicamente disponible.
Description
Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2017