Unsupervised information extraction from web sites using bioinformatic techniques

Loading...
Thumbnail Image
Date
2011
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
La integración de la web ha sido un tema recurrente en estos últimos años que toma cada vez más fuerza en este mundo de grandes fuentes de información. Muchas sitos de la web han comenzado masivamente a incluir estos conceptos dentro de sus productos incluyendo acceso público a servicios web o Apis. Sin embargo la gran mayoría de los sitios no proveen de interfaces estandarizadas para acceder a su información, haciendo la integración con estos sitios una tarea muy compleja. Grandes esfuerzos en information extraction se han producido para lograr obtener información relevante de distintos sitios en la web de manera automatizada, usualmente enfocándose en la información misma que se quiere extraer, dejando el propósito de esta información recolectada al usuario.
En el caso de buscar generar servicios o Apis automatizado esto no es suficiente, ya que se vuelve necesario también un modelo contextual de la información obtenida para dar un paso más allá. Proponemos un sistema no supervisado que extrae un modelo de la información de un sitio en miras a construir a futuro un sistema para construcción de servicios web automática. El software utiliza para la construcción del modelo propiedades presentes en los sitios web junto con conceptos traídos de bioinformática para obtener patrones de información.
Este trabajo describe la perspectiva global de nuestro objetivo, retos enfrentados, una implementación prototipo que muestra la factibilidad técnica y objetivos para el futuro. El software fue probado utilizando información no etiquetada de distintos sitios de nuestro interés, obteniendo buenos resultados en términos de calidad y tiempo de ejecución, logrando además de extraer la información obtener un modelo rico para los pasos siguientes de nuestro gran objetivo.
Description
Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2011
Keywords
Citation