BERT for scientific articles recommendations using open source information

Barías Compagnoni, Bernardo

BERT for scientific articles recommendations using open source information

dc.catalogador	pva
dc.contributor.advisor	Arenas Saavedra, Marcelo Alejandro
dc.contributor.author	Barías Compagnoni, Bernardo
dc.contributor.other	Pontificia Universidad Católica de Chile. Escuela de Ingeniería
dc.date.accessioned	2023-01-30T13:33:53Z
dc.date.available	2023-01-30T13:33:53Z
dc.date.issued	2023
dc.description	Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2023
dc.description.abstract	En los últimos años, los modelos de lenguaje han experimentado grandes avances en el Procesamiento del Lenguaje Natural (NLP). En concreto, el pre-entrenamiento y el desarrollo de modelos como BERT (Bidirectional Encoder Representations from Transformers) y sus derivados se han convertido en el estado del arte para muchas tareas de comprensión del lenguaje. Un campo de investigación interesante que utiliza modelos lingüísticos de PNL es el que estudia la similitud entre textos (Shahmirzadi et al., 2019; Wang & Dong, 2020). Estos textos pueden ser desde grandes documentos o párrafos, hasta oraciones o frases cortas. Gran parte de la dificultad de este problema radica en que los textos, en general, no están bien estructurados. Se han utilizado distintas técnicas para tratar de entender el contexto de los textos y comprender así la semántica de los documentos. Naturalmente, si los textos son mas largos, esto se convierte en una tarea más difícil. Dentro del estudio de la similitud entre textos, recientemente se ha intentado estudiar la relación entre pares de artículos científicos (Knoth et al., 2010, 2017; Tarnavsky et al., 2021). Al comparar artículos científicos, aprovechamos que el documento está dividido en distintas partes, como el título, el resumen, las conclusiones y otras áreas. Aunque siguen siendo datos no estructurados, dan cierta estructura al texto de entrada. Esta propiedad también nos permite trabajar con fragmentos de texto mas pequeños y, por tanto, comprender mejor el contexto. En este trabajo utilizamos BERT para proponer un pipeline que, dada una publicación, entregue publicaciones relacionadas: artículos científicos que puedan ser de interés para el lector. Para ello, abordamos dos problemas de NLP aplicados a artículos científicos: la clasificación de textos y la similitud entre pares de textos. Las etiquetas para los conjuntos de datos de estos problemas proceden de información jerárquica estructurada provista por los autores. Además, utilizamos la versión base de BERT para comprender el significado semántico de las publicaciones utilizando únicamente la información del resumen y el título, mediante la construcción de modelos para cada tarea. Estos modelos fueron evaluados en términos de precisión, recall y puntuación F1.
dc.fechaingreso.objetodigital	2023-01-30
dc.format.extent	xv, 54 páginas
dc.fuente.origen	SRIA
dc.identifier.uri	https://repositorio.uc.cl/handle/11534/66452
dc.information.autoruc	Escuela de ingeniería ; Arenas Saavedra, Marcelo Alejandro ; 0000-0003-3678-1868 ; 81488
dc.information.autoruc	Escuela de ingeniería ; Barías Compagnoni, Bernardo ; S/I ; 1025959
dc.language.iso	en
dc.nota.acceso	Contenido completo
dc.rights	acceso abierto
dc.subject	Procesamiento del lenguaje natural	es_ES
dc.subject	BERT	es_ES
dc.subject	Similitud entre pares de textos	es_ES
dc.subject	Medidas de similitud	es_ES
dc.subject.ddc	620
dc.subject.dewey	Ingeniería	es_ES
dc.title	BERT for scientific articles recommendations using open source information	es_ES
dc.type	tesis de maestría
sipa.codpersvinculados	81488
sipa.codpersvinculados	1025959

Files

Original bundle

Now showing 1 - 1 of 1

Name:: TESIS_BBarias_Firma Final.pdf
Size:: 5.19 MB
Format:: Adobe Portable Document Format
Description:

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.98 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

3.01 Tesis magíster