Implementación de un modelo de lenguaje para extracción de terminología en español

Bookmark (0)
Please login to bookmark Close

Las frases claves, o en su traducción al inglés “Keyphrases”, son conjuntos de palabras que reflejan el significado principal de un texto. Actualmente, son muy pocas las aproximaciones automatizadas para la extracción de frases clave en textos en español, ya que la mayoría de los métodos existentes se centran exclusivamente en textos en inglés. En este TFG exploraremos la capacidad de los modelos de lenguaje en la extracción de frases clave, utilizando como base el artículo científico PromptRank: Unsupervised Keyphrase Extraction Using Prompt. El descubrimiento esencial en PromptRank reside, como bien indica su nombre, en el uso del “Prompt” para dotar al modelo de lenguaje de mayor contexto. En nuestro trabajo, damos un paso más al emplear un modelo de lenguaje multilingüe como es MT5 para la extracción de frases clave en textos en castellano, una aproximación novedosa en este ámbito. Estudiaremos el método seguido por PromptRank y otros modelos que lo preceden, adaptaremos el enfoque al español, buscaremos posibles mejoras, y analizaremos los resultados obtenidos con nuestro modelo.
ABSTRACT
Keyphrases are sets of words that reflect the main meaning of a text. Currently, there are very few automated approaches for keyphrase extraction in Spanish texts, as most existing methods focus exclusively on English texts. In this Bachelor’s Thesis, we explore the capability of language models for keyphrase extraction, using as a basis the scientific article PromptRank: Unsupervised Keyphrase Extraction Using Prompt. The essential discovery in PromptRank lies, as its name suggests, in the use of “Prompt” to provide the language model with greater context. Our work takes this a step further by employing a multilingual pretrained language model, MT5, for keyphrase extraction in Spanish texts, a novel approach in this field. We study the method followed by PromptRank and other preceding models, adapt the approach to Spanish, propose potential improvements, and analyze the results obtained with our model.

​Las frases claves, o en su traducción al inglés “Keyphrases”, son conjuntos de palabras que reflejan el significado principal de un texto. Actualmente, son muy pocas las aproximaciones automatizadas para la extracción de frases clave en textos en español, ya que la mayoría de los métodos existentes se centran exclusivamente en textos en inglés. En este TFG exploraremos la capacidad de los modelos de lenguaje en la extracción de frases clave, utilizando como base el artículo científico PromptRank: Unsupervised Keyphrase Extraction Using Prompt. El descubrimiento esencial en PromptRank reside, como bien indica su nombre, en el uso del “Prompt” para dotar al modelo de lenguaje de mayor contexto. En nuestro trabajo, damos un paso más al emplear un modelo de lenguaje multilingüe como es MT5 para la extracción de frases clave en textos en castellano, una aproximación novedosa en este ámbito. Estudiaremos el método seguido por PromptRank y otros modelos que lo preceden, adaptaremos el enfoque al español, buscaremos posibles mejoras, y analizaremos los resultados obtenidos con nuestro modelo.
ABSTRACT
Keyphrases are sets of words that reflect the main meaning of a text. Currently, there are very few automated approaches for keyphrase extraction in Spanish texts, as most existing methods focus exclusively on English texts. In this Bachelor’s Thesis, we explore the capability of language models for keyphrase extraction, using as a basis the scientific article PromptRank: Unsupervised Keyphrase Extraction Using Prompt. The essential discovery in PromptRank lies, as its name suggests, in the use of “Prompt” to provide the language model with greater context. Our work takes this a step further by employing a multilingual pretrained language model, MT5, for keyphrase extraction in Spanish texts, a novel approach in this field. We study the method followed by PromptRank and other preceding models, adapt the approach to Spanish, propose potential improvements, and analyze the results obtained with our model. Read More