Implementación de estrategias de optimización computacional para la estimación precisa en tiempo real de la calidad de experiencia en vídeo

Bookmark (0)
Please login to bookmark Close

The consumption of audiovisual content has grown significantly in recent years, driven by the massive use of social networks and technological advances in the sector. In this context, the quality perceived by users, known as QoE (Quality of Experience), has emerged as a critical factor in the success or failure of audiovisual services. However, its evaluation is a major challenge due to the subjective nature of the user experience and the complexity of the multiple factors that influence it.
The reduction of computational cost in objective QoE evaluation represents a fundamental challenge in the field of audiovisual processing. The main objective of this doctoral thesis is to optimize video processing in objective QoE evaluation models, minimizing the computational cost without compromising the accuracy of the quality estimation. To this end, this research is based on the use of the Video-MOS tool, a proprietary solution that uses non-reference video metrics and allows real-time quality evaluation. The proposed optimization methods focus on the efficient exploitation of the spatial and temporal redundancy of the videos in order to improve the computational efficiency without compromising the reliability of the evaluation.
In order to exploit the spatial redundancy of the images, several approaches are proposed to select specific regions within the image, such as the central region or areas of interest identified by saliency detection methods. The possibility of reducing the size of the images is also investigated. These approaches imply a significant reduction in computational cost, but affect, to a greater or lesser extent, the accuracy in estimating the final MOS (Mean Opinion Score) value.
For the temporal redundancy of videos, uniform temporal sampling approaches are used, which allow the processing of a reduced subset of images. In addition, the use of the SSIM (Structural Similarity Index Measure) metric to identify significant changes between consecutive images and the use of different image types in video coding (type I, type P and type B) as a strategy to determine the relevance of each image within the temporal context of the video are evaluated.
The combination of spatial and temporal redundancy allows a significant optimization of the computational cost, with promising results. The proposed mode is based, depending on the video metric, on feature extraction with low and original resolution images. It is further complemented by a uniform temporal sampling selecting only the first frame of each video measurement, and by type I images. The mode limits the maximum number of images to be processed, ensuring real-time operation for all measurements, regardless of the complexity and type of content.
On the test video dataset, composed of 1123 three-second sequences, the proposed mode achieves an average computational cost reduction of more than 95.32%, with a MOS estimation error of 0.09. On the other hand, with the validation dataset composed of more than 174000 video sequences of the main HD DTT channels in Spain, a computational cost saving of more than 94.96% is obtained, with a MOS error of 0.11. This exhaustive validation with 144 hours of audiovisual content confirms the reliability and validity of the proposed solution.
Therefore, this research presents an effective proposal for an objective quality assessment that achieves a balance between accuracy and efficiency in the estimation of QoE with the Video-MOS tool. Although the proposal is applied to the Video-MOS solution, it is expected that the conclusions obtained can be extrapolated to other models of objective quality assessment in images and videos, and make a positive contribution to the scientific community and the entire audiovisual sector.
RESUMEN
El consumo de contenido audiovisual ha experimentado un crecimiento significativo en los últimos años, impulsado por el uso masivo de las redes sociales y los avances tecnológicos en el sector. En este contexto, la calidad percibida por los usuarios, conocida como Calidad de la Experiencia (QoE, Quality of Experience), se ha consolidado como un factor determinante en el éxito o fracaso de los servicios audiovisuales. Sin embargo, su evaluación es todo un reto por la naturaleza subjetiva de la experiencia y la complejidad de los múltiples factores involucrados.
La reducción del coste computacional en la evaluación objetiva de la QoE representa un desafío en el ámbito del procesamiento audiovisual. El objetivo principal de esta tesis doctoral es optimizar el procesamiento de vídeo en modelos objetivos de evaluación de QoE, minimizando el coste computacional sin afectar la precisión en la estimación de calidad. Esta investigación se fundamenta en el uso de la herramienta Video-MOS, una solución propia que emplea métricas de vídeo sin referencia y permite la evaluación de calidad en tiempo real. Los métodos de optimización propuestos se centran en la explotación eficiente de la redundancia espacial y temporal de los vídeos, para mejorar la eficiencia computacional sin comprometer la fiabilidad de la evaluación.
Para aprovechar la redundancia espacial de las imágenes, se proponen diversos enfoques orientados a seleccionar regiones específicas dentro de la imagen, como la región central o las áreas de interés identificadas mediante métodos de detección de saliencia. También se investiga la posibilidad de reducir el tamaño de las imágenes. Estos enfoques implican una disminución significativa del coste computacional, pero impacta, en mayor o en menor medida, en la precisión del valor de MOS (Mean Opinion Score).
Para la redundancia temporal del vídeo, se emplean enfoques de muestreo temporal uniforme que permiten procesar un subconjunto reducido de imágenes. Además, se evalúa el uso de la métrica SSIM (Structural Similarity Index Measure) para identificar cambios significativos entre imágenes consecutivas, y el uso de diferentes tipos de imagen (I, P y B) en la codificación de vídeo como estrategia para determinar su relevancia dentro del contexto temporal del vídeo.
La combinación de redundancia espacial y temporal permite una optimización sustancial del coste computacional, con resultados prometedores. El modo propuesto se basa, dependiendo de la métrica de vídeo, en la extracción de características con imágenes a baja resolución y a resolución original. Se complementa con un muestreo temporal uniforme que selecciona únicamente la primera imagen de cada medida de vídeo, e imágenes tipo I. El modo limita el número máximo de imágenes a procesar, lo que garantiza su funcionamiento en tiempo real para todas las medidas, independientemente de la complejidad y tipo de contenido.
Con el conjunto de vídeos de prueba, compuesto por 1123 secuencias de tres segundos de duración, el modo propuesto logra una reducción media del coste computacional superior al 95.32%, con un error en la estimación de MOS de 0.09. Por otro lado, con el conjunto de datos de validación compuesto por más de 174000 secuencias de vídeo de los principales canales HD de la TDT en España, se obtiene un ahorro computacional superior al 94.96%, con un error de MOS de 0.11. Esta validación exhaustiva con 144 horas de contenido audiovisual confirma la fiabilidad y validez de la solución.
Por todo ello, esta investigación presenta una propuesta efectiva para la evaluación objetiva de calidad, logrando un equilibrio entre precisión y eficiencia en la estimación de QoE con la herramienta Video-MOS. Aunque la solución se aplica directamente sobre esta herramienta, se espera que las conclusiones obtenidas se puedan extrapolar a otros modelos de evaluación de calidad objetiva, y contribuir positivamente a la comunidad científica y al sector audiovisual.

​The consumption of audiovisual content has grown significantly in recent years, driven by the massive use of social networks and technological advances in the sector. In this context, the quality perceived by users, known as QoE (Quality of Experience), has emerged as a critical factor in the success or failure of audiovisual services. However, its evaluation is a major challenge due to the subjective nature of the user experience and the complexity of the multiple factors that influence it.
The reduction of computational cost in objective QoE evaluation represents a fundamental challenge in the field of audiovisual processing. The main objective of this doctoral thesis is to optimize video processing in objective QoE evaluation models, minimizing the computational cost without compromising the accuracy of the quality estimation. To this end, this research is based on the use of the Video-MOS tool, a proprietary solution that uses non-reference video metrics and allows real-time quality evaluation. The proposed optimization methods focus on the efficient exploitation of the spatial and temporal redundancy of the videos in order to improve the computational efficiency without compromising the reliability of the evaluation.
In order to exploit the spatial redundancy of the images, several approaches are proposed to select specific regions within the image, such as the central region or areas of interest identified by saliency detection methods. The possibility of reducing the size of the images is also investigated. These approaches imply a significant reduction in computational cost, but affect, to a greater or lesser extent, the accuracy in estimating the final MOS (Mean Opinion Score) value.
For the temporal redundancy of videos, uniform temporal sampling approaches are used, which allow the processing of a reduced subset of images. In addition, the use of the SSIM (Structural Similarity Index Measure) metric to identify significant changes between consecutive images and the use of different image types in video coding (type I, type P and type B) as a strategy to determine the relevance of each image within the temporal context of the video are evaluated.
The combination of spatial and temporal redundancy allows a significant optimization of the computational cost, with promising results. The proposed mode is based, depending on the video metric, on feature extraction with low and original resolution images. It is further complemented by a uniform temporal sampling selecting only the first frame of each video measurement, and by type I images. The mode limits the maximum number of images to be processed, ensuring real-time operation for all measurements, regardless of the complexity and type of content.
On the test video dataset, composed of 1123 three-second sequences, the proposed mode achieves an average computational cost reduction of more than 95.32%, with a MOS estimation error of 0.09. On the other hand, with the validation dataset composed of more than 174000 video sequences of the main HD DTT channels in Spain, a computational cost saving of more than 94.96% is obtained, with a MOS error of 0.11. This exhaustive validation with 144 hours of audiovisual content confirms the reliability and validity of the proposed solution.
Therefore, this research presents an effective proposal for an objective quality assessment that achieves a balance between accuracy and efficiency in the estimation of QoE with the Video-MOS tool. Although the proposal is applied to the Video-MOS solution, it is expected that the conclusions obtained can be extrapolated to other models of objective quality assessment in images and videos, and make a positive contribution to the scientific community and the entire audiovisual sector.
RESUMEN
El consumo de contenido audiovisual ha experimentado un crecimiento significativo en los últimos años, impulsado por el uso masivo de las redes sociales y los avances tecnológicos en el sector. En este contexto, la calidad percibida por los usuarios, conocida como Calidad de la Experiencia (QoE, Quality of Experience), se ha consolidado como un factor determinante en el éxito o fracaso de los servicios audiovisuales. Sin embargo, su evaluación es todo un reto por la naturaleza subjetiva de la experiencia y la complejidad de los múltiples factores involucrados.
La reducción del coste computacional en la evaluación objetiva de la QoE representa un desafío en el ámbito del procesamiento audiovisual. El objetivo principal de esta tesis doctoral es optimizar el procesamiento de vídeo en modelos objetivos de evaluación de QoE, minimizando el coste computacional sin afectar la precisión en la estimación de calidad. Esta investigación se fundamenta en el uso de la herramienta Video-MOS, una solución propia que emplea métricas de vídeo sin referencia y permite la evaluación de calidad en tiempo real. Los métodos de optimización propuestos se centran en la explotación eficiente de la redundancia espacial y temporal de los vídeos, para mejorar la eficiencia computacional sin comprometer la fiabilidad de la evaluación.
Para aprovechar la redundancia espacial de las imágenes, se proponen diversos enfoques orientados a seleccionar regiones específicas dentro de la imagen, como la región central o las áreas de interés identificadas mediante métodos de detección de saliencia. También se investiga la posibilidad de reducir el tamaño de las imágenes. Estos enfoques implican una disminución significativa del coste computacional, pero impacta, en mayor o en menor medida, en la precisión del valor de MOS (Mean Opinion Score).
Para la redundancia temporal del vídeo, se emplean enfoques de muestreo temporal uniforme que permiten procesar un subconjunto reducido de imágenes. Además, se evalúa el uso de la métrica SSIM (Structural Similarity Index Measure) para identificar cambios significativos entre imágenes consecutivas, y el uso de diferentes tipos de imagen (I, P y B) en la codificación de vídeo como estrategia para determinar su relevancia dentro del contexto temporal del vídeo.
La combinación de redundancia espacial y temporal permite una optimización sustancial del coste computacional, con resultados prometedores. El modo propuesto se basa, dependiendo de la métrica de vídeo, en la extracción de características con imágenes a baja resolución y a resolución original. Se complementa con un muestreo temporal uniforme que selecciona únicamente la primera imagen de cada medida de vídeo, e imágenes tipo I. El modo limita el número máximo de imágenes a procesar, lo que garantiza su funcionamiento en tiempo real para todas las medidas, independientemente de la complejidad y tipo de contenido.
Con el conjunto de vídeos de prueba, compuesto por 1123 secuencias de tres segundos de duración, el modo propuesto logra una reducción media del coste computacional superior al 95.32%, con un error en la estimación de MOS de 0.09. Por otro lado, con el conjunto de datos de validación compuesto por más de 174000 secuencias de vídeo de los principales canales HD de la TDT en España, se obtiene un ahorro computacional superior al 94.96%, con un error de MOS de 0.11. Esta validación exhaustiva con 144 horas de contenido audiovisual confirma la fiabilidad y validez de la solución.
Por todo ello, esta investigación presenta una propuesta efectiva para la evaluación objetiva de calidad, logrando un equilibrio entre precisión y eficiencia en la estimación de QoE con la herramienta Video-MOS. Aunque la solución se aplica directamente sobre esta herramienta, se espera que las conclusiones obtenidas se puedan extrapolar a otros modelos de evaluación de calidad objetiva, y contribuir positivamente a la comunidad científica y al sector audiovisual. Read More