Identificación de patrones de código HTML a través de modelos LLM

Please login to bookmark

Resumen
No existe una estandarización en cuanto a la estructura HTML (HyperText Markup Language) de los periódicos digitales, es por eso que los procesos de extracción de datos, conocidos como web scraping, requieren una especialización para cada sitio web. Esta heterogeneidad, sumada a la constante evolución en el código de los medios digitales, hace que, actualmente, el web scraping sea un proceso específico de cada web y que requiera una adaptación continua.
Una posible solución a estos problemas de robustez y mantenibilidad de los procesos de web scraping tradicional son los modelos de lenguaje a gran escala, conocidos por sus siglas en inglés LLM (Large Language Models). Los LLM son modelos de inteligencia artificial entrenados con enormes cantidades de diferentes datos y textos, lo que les permite comprender patrones lingüísticos complejos y generar texto humano con mucha exactitud.
En este contexto, se pretende utilizar la capacidad de comprensión contextual de los LLM para abstraer el proceso de una estructura HTML particular, haciéndolo más adaptable a modificaciones y con menor necesidad de mantenimiento. Este trabajo busca intentar unificar el proceso de recolección automática de datos y, para ello, se ha desarrollado una aplicación web, denominada NewScrAIper. La aplicación constituye un sistema eficiente y versátil para la recopilación periódica de datos de noticias de periódicos digitales, empleando modelos LLM como herramienta clave para desvincular el proceso del medio.
NewScrAIper permite al usuario establecer y ejecutar procesos de web scraping de manera periódica, seleccionando el medio digital del cual desea extraer información, estableciendo palabras clave para filtrar los contenidos de su interés y definiendo un rango específico de fechas. La aplicación obtiene información relevante de cada noticia, que incluye el titular, el autor, la fecha de publicación, el subtítulo o un pequeño resumen y el enlace a la noticia completa.
Para lograr esta funcionalidad, la aplicación hace uso de un modelo LLM para la identificación y extracción de los datos de noticias de cualquier medio digital, permitiendo así tener un proceso generalizado e independiente del periódico digital. Esta información se almacena en una base de datos, en un formato semiestructurado, para su posterior consulta y análisis.
Además, se ha implementado una interfaz de usuario con un diseño atractivo y sencillo, que garantiza una experiencia accesible y facilita la creación y monitorización de los procesos de extracción de datos. La aplicación puede ser probada siguiendo las instrucciones disponibles en el siguiente repositorio: github.com/ec-dani/newscraiper.
Abstract
There is no standardization regarding the HTML (HyperText Markup Language) structure of digital newspapers, which is why data extraction processes, known as web scraping, require specialization for each website. This heterogeneity and the constant evolution in the code of digital media outlets means that, currently, web scraping is a process specific to each website and requires continuous adaptation.
One possible solution to these problems of robustness and maintainability in traditional web scraping processes is Large Language Models (LLMs). LLMs are artificial intelligence models trained with enormous amounts of different data and texts, allowing them to understand complex linguistic patterns and generate human-like text with great accuracy.
In this context, the aim is to use the contextual understanding capacity of LLMs to abstract the process from a specific HTML structure, making it more adaptable to modifications and requiring less maintenance. This project aims to unify the automatic data collection process, and for this purpose, a web application named NewScrAIper has been developed. The application serves as an efficient and flexible system for regularly gathering news data from online newspapers, employing LLM models as a key tool to separate the process from the specific media outlet.
NewScrAIper allows the user to set up and execute web scraping processes periodically, selecting the digital media outlet from which they want to extract information, establishing keywords to filter content of interest, and defining a specific date range. The application obtains relevant information from each news article, which includes the headline, author, publication date, subtitle or lead, and the link to the original article.
To achieve this functionality, the application uses an LLM model for the identification and extraction of news data from any digital media outlet, enabling a generalized process independent of the digital newspaper. This information is stored in a database, in a semi-structured format, for subsequent querying and analysis.
Additionally, a user interface with an appealing and user-friendly design has been implemented, providing an accessible experience and simplifying the creation and monitoring of data extraction processes. The application can be tested by following the instructions available in this repository:github.com/ec-dani/newscraiper.

Identificación de patrones de código HTML a través de modelos LLM

Continuar buscando...

Nueva Información Actualizada

Related posts: