Uso de transformers para la categorización del NLP en español

Please login to bookmark

El Trabajo de Fin de Grado (TFG) se inició con el objetivo de adaptar y llevar al español el trabajo realizado por el Dr. Peter Gloor, del MIT Center for Collective Intelligence, y su equipo. Este trabajo fue plasmado en el libro Happimetrics, escrito por el Dr. Peter Gloor.
El Dr. Gloor identificó diversos tipos de personalidades y estudió cómo estas se relacionaban entre sí mediante el uso de inteligencia artificial. Específicamente, empleó técnicas de aprendizaje automático para discernir patrones de comportamiento entre los individuos analizados. Esto le permitió agruparlos en diferentes categorías o tribus según sus características y valores comunes. También se centró en la investigación de los flujos de trabajo en entornos académicos y profesionales, definiendo un flujo de trabajo como el conjunto de dinámicas y ambientes que surgen cuando un grupo de personas colabora en un proyecto.
Siguiendo esta línea de investigación, se propuso desarrollar modelos de inteligencia artificial capaces de distinguir a un individuo entre las categorías identificadas por el Dr.Gloor y reflejadas en Happimetrics. La diferencia entre los modelos desarrollados por el Dr.Gloor y los modelos desarrollados en este proyecto es que los nuevos modelos trabajarán específicamente con texto en español a diferencia de los modelos desarrollados por el Dr. Gloor, los cuales no estaban especializados en este idioma.
Para ello, se llevó a cabo una exhaustiva investigación sobre técnicas de inteligencia artificial, optando finalmente por utilizar modelos basados en la arquitectura Transformer debido a su avanzada eficiencia en el procesamiento del lenguaje natural (NLP, por sus siglas en inglés).
Se entrenaron y ajustaron modelos de categorización de texto multiclase capaces de diferenciar entre los grupos y tribus definidos en Happimetrics. Para ello se identificaron los grupos y personas españolas que coincidieran con las categorías definidas mediante una variedad de métodos para construir conjuntos de datos (datasets) y utilizar la información extraída de estos para el entrenamiento de los modelos.
Con el fin de enriquecer la calidad y variedad de los datos de entrenamiento, se identificaron también personalidades y grupos internacionales que se ajustaran a las diferentes tribus, traduciendo la información al español y combinándola con los datasets españoles.
Adicionalmente se desarrollaron dos modelos capaces de identificar los valores éticos de un texto. Estos dos conjuntos de valores éticos son los definidos por el sociólogo Shalom Schwartz y el psicólogo Jonathan Haidt. Cada conjunto de valores es diferente y cada modelo es capaz de identificar uno de los conjuntos. Estos modelos constan de dos partes, un modelo de categorización de texto multiclase de 28 diferentes emociones y un algoritmo que utiliza la salida del modelo de categorización de texto multiclase de emociones y lo procesa para dar el resultado de cada uno de los modelos de valores éticos. Para el entrenamiento de los modelos se encontraron o crearon conjuntos de datos (datasets) adecuados para el proyecto.
Para el desarrollo de los modelos se creó un programa de apoyo llamado evaluador el cual tendría como propósito verificar la calidad de los modelos. Este contaría con varias funciones tanto para la revisión manual como el afinamiento de los modelos y datasets, como para comprobar cómo de bien se comportan los modelos frente a cientos de ejemplos diferentes a través de métricas. También fue usado para crear y refinar los algoritmos usados en los modelos de valores éticos.También se desarrolló una interfaz gráfica intuitiva capaz de visualizar y probar los modelos con facilidad. Esta interfaz está creada de manera que puede alojarse en un ordenador personal o servidor y es capaz de acceder a todos los modelos desarrollados.
Como resultado, se logró implementar un programa de evaluación de modelos, una interfaz gráfica que muestre los resultados de dichos modelos y los modelos, capaces de identificar emociones, valores éticos y grupos o tribus basándose en frases o textos en español. Este avance representa una contribución significativa, especialmente en el contexto del español, donde se tuvieron en cuenta las expresiones y particularidades lingüísticas propias del idioma. Este trabajo representa un aporte original y específico para el procesamiento del lenguaje natural en español, llenando un vacío en plataformas importantes como Hugging Face.
Abstract:
The Bachelor’s Thesis (TFG) was initiated with the objective of adapting and translating into Spanish the work carried out by Dr. Peter Gloor, from the MIT Center for Collective Intelligence, and his team. This work was captured in the book Happimetrics, written by Dr. Peter Gloor.
Dr. Gloor identified various personality types and studied how they related to each other using artificial intelligence. Specifically, he employed machine learning techniques to discern behavioral patterns among the individuals analyzed. This allowed him to group them into different categories or tribes based on their common characteristics and values. He also focused on the study of workflows in academic and professional environments, defining a workflow as the set of dynamics and environments that arise when a group of people collaborates on a project.
Following this line of research, it was proposed to develop artificial intelligence models capable of distinguishing an individual among the categories identified by Dr. Gloor and reflected in Happimetrics. The difference between the models developed by Dr. Gloor and the models developed in this project is that the new models will work specifically with text in Spanish, unlike Dr. Gloor’s models, which were not specialized in this language.
To this end, extensive research was conducted on artificial intelligence techniques, ultimately opting to use models based on the Transformer architecture due to their advanced efficiency in natural language processing (NLP).
Multiclass text categorization models capable of differentiating between the groups and tribes defined in Happimetrics were trained and fine-tuned. To do this, Spanish groups and individuals that matched the defined categories were identified using a variety of methods to build datasets and use the information extracted from them to train the models.
In order to enrich the quality and variety of the training data, international personalities and groups that fit the different tribes were also identified, translating the information into Spanish and combining it with the Spanish datasets.
Additionally, two models capable of identifying the ethical values of a text were developed.These two sets of ethical values are those defined by sociologist Shalom Schwartz and psychologist Jonathan Haidt. Each set of values is different, and each model is capable of identifying one of the sets. These models consist of two parts: a multiclass text categorization model of 28 different emotions and an algorithm that uses the output of the multiclass text categorization model of emotions and processes it to give the result of each of the ethical values models.
For the development of the models, a program called evaluator was created, which would have the purpose of allowing the models’ outputs to be easily checked firsthand. This was used to manually review the models’ outputs and ensure the quality of these outputs and the quality of the constructed datasets. It was also used to create and refine the algorithms used in the ethical values models. An intuitive graphical interface was also developed to easily visualize and test the models. This interface is designed so that it can be hosted on a personal computer or server and is able to access all the developed models.
As a result, a model evaluation program, a graphical interface that displays the models’ results, and the models themselves were successfully implemented. These models are capable of identifying emotions, ethical values, and groups or tribes based on sentences or texts in Spanish. This advancement represents a significant contribution, especially in the context of Spanish, where the language’s unique expressions and linguistic nuances were taken into account. This work represents an original and specific contribution to natural language processing in Spanish, filling a gap on important platforms like Hugging Face.

Uso de transformers para la categorización del NLP en español

Continuar buscando...

Nueva Información Actualizada

Related posts: