Metodología para la construcción automática de un corpus de dominio específico

dc.contributor.advisorAguilar, César Antonio
dc.contributor.authorAraya Araya, Fabiola Berta
dc.contributor.otherPontificia Universidad Católica de Chile. Escuela de Ingeniería
dc.date.accessioned2018-08-13T16:21:54Z
dc.date.available2018-08-13T16:21:54Z
dc.date.issued2018
dc.descriptionTesis (Magíster en Procesamiento y Gestión de la Información)--Pontificia Universidad Católica de Chile, 2018
dc.description.abstractLos corpus son un recurso hoy en día inigualable para cualquier estudio lingüístico en general y en lingüística computacional. Ahora bien, con la incorporación de los computadores cada vez con mayor capacidad de almacenamiento y procesamiento, el acceso a los datos es rápido y fiable, así como su manipulación, extracción e identificación de información relevante de enormes cantidades de textos. La contribución concreta de este trabajo fue generar una metodología para la construcción automática de un corpus de dominio específico mediante el entrenamiento de un modelo de tópicos que fuera capaz de discriminar los documentos del dominio previamente definido de otro que no lo fuera. Para ello fue relevante la utilización de herramientas como MALLET, el módulo LDAP y Pthon y librerías como NLTK, GENSIM, entre otras mencionadas en el cuerpo del trabajo. La implementación de un programa computacional con una interfaz de fácil manipulación permitió comprobar el funcionamiento del corpus de entrenamiento y de prueba. Además, con estos resultados se evaluó el clasificador a través de una matriz de confusión.
dc.format.extentv, 49 páginas
dc.identifier.doi10.7764/tesisUC/ING/21979
dc.identifier.urihttps://doi.org/10.7764/tesisUC/ING/21979
dc.identifier.urihttps://repositorio.uc.cl/handle/11534/21979
dc.nota.accesoContenido completo
dc.rightsacceso abierto
dc.subject.ddc400
dc.subject.deweyLenguases_ES
dc.subject.otherCorpora (Lingüística) - Procesamiento de datoses_ES
dc.subject.otherLingüística computacionales_ES
dc.titleMetodología para la construcción automática de un corpus de dominio específicoes_ES
dc.typetesis de maestría
sipa.codpersvinculados1010076
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Tesis_FabiolaAraya.pdf
Size:
2.05 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.31 KB
Format:
Item-specific license agreed upon to submission
Description: