En la actualidad, las redes sociales y los entornos digitales se han convertido en las principales fuentes de información para millones de personas. Sin embargo, esta transformación ha traído consigo un fenómeno preocupante: la rápida difusión de noticias falsas o engañosas. La desinformación no solo afecta al ámbito político o mediático, sino que tiene consecuencias reales en la sociedad, desde el aumento de la polarización ideológica hasta la pérdida de confianza en instituciones públicas o la propagación de teorías peligrosas durante emergencias sanitarias. La facilidad con la que estos contenidos se comparten, la dificultad de verificación para el usuario medio y el uso creciente de tecnologías generativas hacen que la detección automática de estas noticias sea un reto urgente tanto para investigadores como para responsables de plataformas y gobiernos. Ante esta problemática, el objetivo principal de este proyecto es diseñar, implementar y evaluar un sistema de detección automática de noticias falsas en español utilizando técnicas de procesamiento de lenguaje natural (PLN) e inteligencia artificial. El proyecto busca aportar una solución eficaz, escalable y adaptable a diferentes contextos de desinformación, contribuyendo a un entorno informativo más fiable. Para ello, se han utilizado distintos conjuntos de datos (noticias reales y falsas, tweets generados, y una combinación de ambos), y se han probado diversos métodos de representación del texto junto a modelos de clasificación de distintos niveles de complejidad, desde algoritmos clásicos hasta modelos avanzados basados en Transformers. Los resultados obtenidos muestran que el enfoque basado en modelos de machine learning, deep learning y transformers presentan un gran potencial para afrontar esta tarea. Se ha comprobado también que el uso de embeddings como FastText mejora la precisión en modelos más sencillos cuando se trabaja con textos breves como los tweets. Además, se ha llevado a cabo un análisis de explicabilidad para interpretar mejor las predicciones de los modelos, así como una evaluación del impacto potencial del sistema desarrollado en términos sociales, económicos, medioambientales y culturales. Finalmente, este proyecto pone de relieve la importancia de seguir investigando en este ámbito, proponiendo líneas de trabajo futuro como la integración de análisis multimodal (texto e imagen), el uso de técnicas de detección adaptativa frente a nuevos patrones de desinformación, y la incorporación de principios éticos que garanticen la equidad y la transparencia.
ABSTRACT
Nowadays, social media and digital environments have become the main sources of information for millions of people. However, this shift has brought with it a troubling phenomenon: the rapid spread of false or misleading news. Disinformation not only affects the political or media landscape, but also has real consequences for society, ranging from increased ideological polarization to the erosion of trust in public institutions, or the spread of harmful theories during health emergencies. The ease with which such content is shared, the difficulty of verification for the average user, and the growing use of generative technologies make the automatic detection of fake news an urgent challenge for researchers, platform managers, and governments alike. To address this issue, the main objective of this project is to design, implement, and evaluate an automatic fake news detection system in Spanish using Natural Language Processing (NLP) and artificial intelligence techniques. The project aims to provide an effective, scalable, and adaptable solution for different disinformation contexts, contributing to a more reliable information ecosystem. For this purpose, various datasets have been used (real and fake news, synthetically generated tweets, and a combination of both), and multiple text representation methods have been tested along with classification models of different complexity levels, from classical algorithms to advanced Transformer-based models. The results obtained show that machine learning, deep learning, and Transformerbased approaches hold great potential for addressing this task. It has also been confirmed that using embeddings such as FastText improves accuracy in simpler models when dealing with short texts like tweets. In addition, an explainability analysis has been conducted to better understand the models’ predictions, along with an evaluation of the system’s potential impact across social, economic, environmental, and cultural dimensions. Finally, this project highlights the importance of continued research in this area, proposing future lines of work such as the integration of multimodal analysis (text and image), the use of adaptive detection techniques against new misinformation patterns, and the incorporation of ethical principles that ensure fairness and transparency.
En la actualidad, las redes sociales y los entornos digitales se han convertido en las principales fuentes de información para millones de personas. Sin embargo, esta transformación ha traído consigo un fenómeno preocupante: la rápida difusión de noticias falsas o engañosas. La desinformación no solo afecta al ámbito político o mediático, sino que tiene consecuencias reales en la sociedad, desde el aumento de la polarización ideológica hasta la pérdida de confianza en instituciones públicas o la propagación de teorías peligrosas durante emergencias sanitarias. La facilidad con la que estos contenidos se comparten, la dificultad de verificación para el usuario medio y el uso creciente de tecnologías generativas hacen que la detección automática de estas noticias sea un reto urgente tanto para investigadores como para responsables de plataformas y gobiernos. Ante esta problemática, el objetivo principal de este proyecto es diseñar, implementar y evaluar un sistema de detección automática de noticias falsas en español utilizando técnicas de procesamiento de lenguaje natural (PLN) e inteligencia artificial. El proyecto busca aportar una solución eficaz, escalable y adaptable a diferentes contextos de desinformación, contribuyendo a un entorno informativo más fiable. Para ello, se han utilizado distintos conjuntos de datos (noticias reales y falsas, tweets generados, y una combinación de ambos), y se han probado diversos métodos de representación del texto junto a modelos de clasificación de distintos niveles de complejidad, desde algoritmos clásicos hasta modelos avanzados basados en Transformers. Los resultados obtenidos muestran que el enfoque basado en modelos de machine learning, deep learning y transformers presentan un gran potencial para afrontar esta tarea. Se ha comprobado también que el uso de embeddings como FastText mejora la precisión en modelos más sencillos cuando se trabaja con textos breves como los tweets. Además, se ha llevado a cabo un análisis de explicabilidad para interpretar mejor las predicciones de los modelos, así como una evaluación del impacto potencial del sistema desarrollado en términos sociales, económicos, medioambientales y culturales. Finalmente, este proyecto pone de relieve la importancia de seguir investigando en este ámbito, proponiendo líneas de trabajo futuro como la integración de análisis multimodal (texto e imagen), el uso de técnicas de detección adaptativa frente a nuevos patrones de desinformación, y la incorporación de principios éticos que garanticen la equidad y la transparencia.
ABSTRACT
Nowadays, social media and digital environments have become the main sources of information for millions of people. However, this shift has brought with it a troubling phenomenon: the rapid spread of false or misleading news. Disinformation not only affects the political or media landscape, but also has real consequences for society, ranging from increased ideological polarization to the erosion of trust in public institutions, or the spread of harmful theories during health emergencies. The ease with which such content is shared, the difficulty of verification for the average user, and the growing use of generative technologies make the automatic detection of fake news an urgent challenge for researchers, platform managers, and governments alike. To address this issue, the main objective of this project is to design, implement, and evaluate an automatic fake news detection system in Spanish using Natural Language Processing (NLP) and artificial intelligence techniques. The project aims to provide an effective, scalable, and adaptable solution for different disinformation contexts, contributing to a more reliable information ecosystem. For this purpose, various datasets have been used (real and fake news, synthetically generated tweets, and a combination of both), and multiple text representation methods have been tested along with classification models of different complexity levels, from classical algorithms to advanced Transformer-based models. The results obtained show that machine learning, deep learning, and Transformerbased approaches hold great potential for addressing this task. It has also been confirmed that using embeddings such as FastText improves accuracy in simpler models when dealing with short texts like tweets. In addition, an explainability analysis has been conducted to better understand the models’ predictions, along with an evaluation of the system’s potential impact across social, economic, environmental, and cultural dimensions. Finally, this project highlights the importance of continued research in this area, proposing future lines of work such as the integration of multimodal analysis (text and image), the use of adaptive detection techniques against new misinformation patterns, and the incorporation of ethical principles that ensure fairness and transparency. Read More


