Este Trabajo Fin de Máster presenta el diseño, desarrollo y evaluación de un sistema RAG (Retrieval-Augmented Generation) multimodal sensible al contexto temporal, orientado a facilitar la exploración y consulta de contenido audiovisual sobre el dominio del tenis. El objetivo principal del proyecto es construir una base de conocimiento a partir de documentos multimedia (PDFs, vídeos y podcasts) y evaluar la capacidad de un sistema RAG para ofrecer respuestas fundamentadas que incluyan referencias temporales precisas.
Para ello, se ha llevado a cabo una pipeline completa que abarca la recopilación de datos, la transcripción automática con Whisper, la segmentación de los contenidos, la generación de embeddings semánticos, la indexación y la recuperación de información relevante. Se han explorado y comparado cuatro enfoques distintos de segmentación y alineación temporal, evaluando su impacto sobre la calidad de las respuestas generadas a través de métricas como BERTScore-F1, ROUGE-L y similitud del coseno. El sistema se ha probado con un dataset de evaluación diseñado manualmente, centrado en preguntas que requieren localizar eventos en el tiempo.
Los resultados muestran que solo cuando se incorpora una transcripción con marcas temporales reales (formato .srt), el sistema es capaz de ofrecer respuestas coherentes y temporalmente precisas. Siguiendo ese enfoque se alcanzó un BERTScore-F1 medio de 0.91, un ROUGE-L de 0.73 y una similitud del coseno de 0.94, superando ampliamente a los enfoques anteriores, donde el uso de tiempos estimados o texto plano no logró guiar eficazmente al sistema. Estos resultados confirman que la alineación temporal precisa es clave para abordar preguntas sensibles al tiempo.
Este trabajo no solo valida la viabilidad técnica de construir un sistema RAG multimodal con sensibilidad temporal, sino que también sienta las bases para futuras investigaciones orientadas a mejorar la recuperación y generación de información en contextos donde el eje cronológico es esencial.
Abstract:
This Master’s Thesis presents the design, development, and evaluation of a context-aware, multimodal Retrieval-Augmented Generation (RAG) system that facilitates exploration and querying of audiovisual content in the domain of tennis. The primary goal is to build a knowledge base from multimedia documents (PDFs, videos, and podcasts) and to assess the system’s ability to deliver well-grounded answers that include precise temporal references.
An end-to-end pipeline was implemented, covering data collection, automatic transcription with Whisper, content segmentation, semantic embedding generation, indexing, and retrieval of relevant information. Four distinct approaches to segmentation and temporal alignment were explored and compared, and their impact on answer quality was measured using metrics such as BERTScore-F1, ROUGE-L, and cosine similarity. Evaluation was carried out on a manually designed dataset focused on questions that require locating events in time.
Results show that only when a transcript with real time stamps (in .srt format) is incorporated does the system provide coherent and temporally accurate answers. Using this approach, the system achieved an average BERTScore-F1 of 0.91, a ROUGE-L of 0.73 and a cosine similarity of 0.94, significantly outperforming approaches that relied on estimated timings or plain text, which failed to guide the system effectively. These findings confirm that precise temporal alignment is crucial for addressing time-sensitive questions.
Beyond validating the technical feasibility of building a time-aware multimodal RAG system, this work lays the foundation for future research aimed at improving information retrieval and generation in contexts where the chronological dimension is essential.
Este Trabajo Fin de Máster presenta el diseño, desarrollo y evaluación de un sistema RAG (Retrieval-Augmented Generation) multimodal sensible al contexto temporal, orientado a facilitar la exploración y consulta de contenido audiovisual sobre el dominio del tenis. El objetivo principal del proyecto es construir una base de conocimiento a partir de documentos multimedia (PDFs, vídeos y podcasts) y evaluar la capacidad de un sistema RAG para ofrecer respuestas fundamentadas que incluyan referencias temporales precisas.
Para ello, se ha llevado a cabo una pipeline completa que abarca la recopilación de datos, la transcripción automática con Whisper, la segmentación de los contenidos, la generación de embeddings semánticos, la indexación y la recuperación de información relevante. Se han explorado y comparado cuatro enfoques distintos de segmentación y alineación temporal, evaluando su impacto sobre la calidad de las respuestas generadas a través de métricas como BERTScore-F1, ROUGE-L y similitud del coseno. El sistema se ha probado con un dataset de evaluación diseñado manualmente, centrado en preguntas que requieren localizar eventos en el tiempo.
Los resultados muestran que solo cuando se incorpora una transcripción con marcas temporales reales (formato .srt), el sistema es capaz de ofrecer respuestas coherentes y temporalmente precisas. Siguiendo ese enfoque se alcanzó un BERTScore-F1 medio de 0.91, un ROUGE-L de 0.73 y una similitud del coseno de 0.94, superando ampliamente a los enfoques anteriores, donde el uso de tiempos estimados o texto plano no logró guiar eficazmente al sistema. Estos resultados confirman que la alineación temporal precisa es clave para abordar preguntas sensibles al tiempo.
Este trabajo no solo valida la viabilidad técnica de construir un sistema RAG multimodal con sensibilidad temporal, sino que también sienta las bases para futuras investigaciones orientadas a mejorar la recuperación y generación de información en contextos donde el eje cronológico es esencial.
Abstract:
This Master’s Thesis presents the design, development, and evaluation of a context-aware, multimodal Retrieval-Augmented Generation (RAG) system that facilitates exploration and querying of audiovisual content in the domain of tennis. The primary goal is to build a knowledge base from multimedia documents (PDFs, videos, and podcasts) and to assess the system’s ability to deliver well-grounded answers that include precise temporal references.
An end-to-end pipeline was implemented, covering data collection, automatic transcription with Whisper, content segmentation, semantic embedding generation, indexing, and retrieval of relevant information. Four distinct approaches to segmentation and temporal alignment were explored and compared, and their impact on answer quality was measured using metrics such as BERTScore-F1, ROUGE-L, and cosine similarity. Evaluation was carried out on a manually designed dataset focused on questions that require locating events in time.
Results show that only when a transcript with real time stamps (in .srt format) is incorporated does the system provide coherent and temporally accurate answers. Using this approach, the system achieved an average BERTScore-F1 of 0.91, a ROUGE-L of 0.73 and a cosine similarity of 0.94, significantly outperforming approaches that relied on estimated timings or plain text, which failed to guide the system effectively. These findings confirm that precise temporal alignment is crucial for addressing time-sensitive questions.
Beyond validating the technical feasibility of building a time-aware multimodal RAG system, this work lays the foundation for future research aimed at improving information retrieval and generation in contexts where the chronological dimension is essential. Read More


