BERT for scientific articles recommendations using open source information

dc.catalogadorpva
dc.contributor.advisorArenas Saavedra, Marcelo Alejandro
dc.contributor.authorBarías Compagnoni, Bernardo
dc.contributor.otherPontificia Universidad Católica de Chile. Escuela de Ingeniería
dc.date.accessioned2023-01-30T13:33:53Z
dc.date.available2023-01-30T13:33:53Z
dc.date.issued2023
dc.descriptionTesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2023
dc.description.abstractEn los últimos años, los modelos de lenguaje han experimentado grandes avances en el Procesamiento del Lenguaje Natural (NLP). En concreto, el pre-entrenamiento y el desarrollo de modelos como BERT (Bidirectional Encoder Representations from Transformers) y sus derivados se han convertido en el estado del arte para muchas tareas de comprensión del lenguaje. Un campo de investigación interesante que utiliza modelos lingüísticos de PNL es el que estudia la similitud entre textos (Shahmirzadi et al., 2019; Wang & Dong, 2020). Estos textos pueden ser desde grandes documentos o párrafos, hasta oraciones o frases cortas. Gran parte de la dificultad de este problema radica en que los textos, en general, no están bien estructurados. Se han utilizado distintas técnicas para tratar de entender el contexto de los textos y comprender así la semántica de los documentos. Naturalmente, si los textos son mas largos, esto se convierte en una tarea más difícil. Dentro del estudio de la similitud entre textos, recientemente se ha intentado estudiar la relación entre pares de artículos científicos (Knoth et al., 2010, 2017; Tarnavsky et al., 2021). Al comparar artículos científicos, aprovechamos que el documento está dividido en distintas partes, como el título, el resumen, las conclusiones y otras áreas. Aunque siguen siendo datos no estructurados, dan cierta estructura al texto de entrada. Esta propiedad también nos permite trabajar con fragmentos de texto mas pequeños y, por tanto, comprender mejor el contexto. En este trabajo utilizamos BERT para proponer un pipeline que, dada una publicación, entregue publicaciones relacionadas: artículos científicos que puedan ser de interés para el lector. Para ello, abordamos dos problemas de NLP aplicados a artículos científicos: la clasificación de textos y la similitud entre pares de textos. Las etiquetas para los conjuntos de datos de estos problemas proceden de información jerárquica estructurada provista por los autores. Además, utilizamos la versión base de BERT para comprender el significado semántico de las publicaciones utilizando únicamente la información del resumen y el título, mediante la construcción de modelos para cada tarea. Estos modelos fueron evaluados en términos de precisión, recall y puntuación F1.
dc.fechaingreso.objetodigital2023-01-30
dc.format.extentxv, 54 páginas
dc.fuente.origenSRIA
dc.identifier.urihttps://repositorio.uc.cl/handle/11534/66452
dc.information.autorucEscuela de ingeniería ; Arenas Saavedra, Marcelo Alejandro ; 0000-0003-3678-1868 ; 81488
dc.information.autorucEscuela de ingeniería ; Barías Compagnoni, Bernardo ; S/I ; 1025959
dc.language.isoen
dc.nota.accesoContenido completo
dc.rightsacceso abierto
dc.subjectProcesamiento del lenguaje naturales_ES
dc.subjectBERTes_ES
dc.subjectSimilitud entre pares de textoses_ES
dc.subjectMedidas de similitudes_ES
dc.subject.ddc620
dc.subject.deweyIngenieríaes_ES
dc.titleBERT for scientific articles recommendations using open source informationes_ES
dc.typetesis de maestría
sipa.codpersvinculados81488
sipa.codpersvinculados1025959
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
TESIS_BBarias_Firma Final.pdf
Size:
5.19 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.98 KB
Format:
Item-specific license agreed upon to submission
Description: