Unsupervised information extraction from web sites using bioinformatic techniques

dc.contributor.advisorNavón Cohen, Jaime
dc.contributor.authorAndrade Indo, Carlos
dc.contributor.otherPontificia Universidad Católica de Chile. Escuela de Ingeniería
dc.date.accessioned2012-10-25T12:20:55Z
dc.date.available2012-10-25T12:20:55Z
dc.date.issued2011
dc.descriptionTesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2011
dc.description.abstractLa integración de la web ha sido un tema recurrente en estos últimos años que toma cada vez más fuerza en este mundo de grandes fuentes de información. Muchas sitos de la web han comenzado masivamente a incluir estos conceptos dentro de sus productos incluyendo acceso público a servicios web o Apis. Sin embargo la gran mayoría de los sitios no proveen de interfaces estandarizadas para acceder a su información, haciendo la integración con estos sitios una tarea muy compleja. Grandes esfuerzos en information extraction se han producido para lograr obtener información relevante de distintos sitios en la web de manera automatizada, usualmente enfocándose en la información misma que se quiere extraer, dejando el propósito de esta información recolectada al usuario.
dc.description.abstractEn el caso de buscar generar servicios o Apis automatizado esto no es suficiente, ya que se vuelve necesario también un modelo contextual de la información obtenida para dar un paso más allá. Proponemos un sistema no supervisado que extrae un modelo de la información de un sitio en miras a construir a futuro un sistema para construcción de servicios web automática. El software utiliza para la construcción del modelo propiedades presentes en los sitios web junto con conceptos traídos de bioinformática para obtener patrones de información.
dc.description.abstractEste trabajo describe la perspectiva global de nuestro objetivo, retos enfrentados, una implementación prototipo que muestra la factibilidad técnica y objetivos para el futuro. El software fue probado utilizando información no etiquetada de distintos sitios de nuestro interés, obteniendo buenos resultados en términos de calidad y tiempo de ejecución, logrando además de extraer la información obtener un modelo rico para los pasos siguientes de nuestro gran objetivo.
dc.identifier.doi10.7764/tesisUC/ING/1467
dc.identifier.urihttps://doi.org/10.7764/tesisUC/ING/1467
dc.identifier.urihttps://repositorio.uc.cl/handle/11534/1467
dc.language.isoen
dc.nota.accesoContenido completo
dc.rightsacceso abierto
dc.subject.ddc000
dc.subject.deweyCiencias de la computaciónes_ES
dc.subject.otherServicios web.es_ES
dc.subject.otherProcesamiento de textos (Ciencia de la computación).es_ES
dc.subject.otherSistemas de almacenamiento y recuperación de información.es_ES
dc.titleUnsupervised information extraction from web sites using bioinformatic techniqueses_ES
dc.typetesis de maestría
sipa.codpersvinculados100018
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
563304.pdf
Size:
965.49 KB
Format:
Adobe Portable Document Format
Description: