Implementación de modelos de IA en producción: Caso de análisis automático y categorización de textos

Bookmark (0)
Please login to bookmark Close

En este trabajo se presenta la aplicación web “TextAI”, una herramienta integral diseñada para automatizar y enriquecer el análisis de contenidos textuales mediante técnicas avanzadas de procesamiento del lenguaje natural y aprendizaje automático. Basada en el framework Django, la aplicación integra de forma armónica diversas librerías especializadas—como NLTK, spaCy, RAKE y Gensim—para ofrecer múltiples funcionalidades: desde el análisis básico (conteo de palabras y caracteres) y análisis de sentimiento (con ajustes para expresiones en español) hasta la extracción de entidades, generación de n-grams, y la elaboración de resúmenes automáticos. Además, se destacan características innovadoras como la representación de embeddings a nivel de documento (utilizando modelos de spaCy y Word2Vec), la extracción de relaciones semánticas y una robusta categorización de documentos basada en un modelo previamente entrenado. Complementariamente, la aplicación incorpora funcionalidades de scraping y transcripción de audios, ampliando su espectro de análisis. El desarrollo se ha guiado por criterios de seguridad, rendimiento y estabilidad, asegurando una integración fluida entre el motor de análisis y la interfaz web, lo que permite que la herramienta ofrezca un valor añadido y accesible a sus usuarios.
Abstract:
This paper presents the web application TextAI, a comprehensive tool designed to automate and enrich the analysis of textual content through advanced natural language processing and machine learning techniques. Based on the Django framework, the application harmoniously integrates several specialized libraries- such as NLTK, spaCy, RAKE and Gensim-to offer multiple functionalities: from basic analysis (word and character count) and sentiment analysis (with adjustments for Spanish expressions) to entity extraction, n-gram generation, and automatic summarization. In addition, innovative features such as the representation of embeddings at document level (using spaCy and Word2Vec models), the extraction of semantic relations and a robust categorization of documents based on a previously trained model are highlighted. Additionally, the application incorporates audio scraping and transcription functionalities, broadening its analysis spectrum. The development has been guided by security, performance and stability criteria, ensuring a smooth integration between the analysis engine and the web interface, which allows the tool to offer added value and accessibility to its users.

​En este trabajo se presenta la aplicación web “TextAI”, una herramienta integral diseñada para automatizar y enriquecer el análisis de contenidos textuales mediante técnicas avanzadas de procesamiento del lenguaje natural y aprendizaje automático. Basada en el framework Django, la aplicación integra de forma armónica diversas librerías especializadas—como NLTK, spaCy, RAKE y Gensim—para ofrecer múltiples funcionalidades: desde el análisis básico (conteo de palabras y caracteres) y análisis de sentimiento (con ajustes para expresiones en español) hasta la extracción de entidades, generación de n-grams, y la elaboración de resúmenes automáticos. Además, se destacan características innovadoras como la representación de embeddings a nivel de documento (utilizando modelos de spaCy y Word2Vec), la extracción de relaciones semánticas y una robusta categorización de documentos basada en un modelo previamente entrenado. Complementariamente, la aplicación incorpora funcionalidades de scraping y transcripción de audios, ampliando su espectro de análisis. El desarrollo se ha guiado por criterios de seguridad, rendimiento y estabilidad, asegurando una integración fluida entre el motor de análisis y la interfaz web, lo que permite que la herramienta ofrezca un valor añadido y accesible a sus usuarios.
Abstract:
This paper presents the web application TextAI, a comprehensive tool designed to automate and enrich the analysis of textual content through advanced natural language processing and machine learning techniques. Based on the Django framework, the application harmoniously integrates several specialized libraries- such as NLTK, spaCy, RAKE and Gensim-to offer multiple functionalities: from basic analysis (word and character count) and sentiment analysis (with adjustments for Spanish expressions) to entity extraction, n-gram generation, and automatic summarization. In addition, innovative features such as the representation of embeddings at document level (using spaCy and Word2Vec models), the extraction of semantic relations and a robust categorization of documents based on a previously trained model are highlighted. Additionally, the application incorporates audio scraping and transcription functionalities, broadening its analysis spectrum. The development has been guided by security, performance and stability criteria, ensuring a smooth integration between the analysis engine and the web interface, which allows the tool to offer added value and accessibility to its users. Read More