Las organizaciones de estandarización de codificación de vídeo han invertido esfuerzos significativos en lograr mayores factores de compresión a lo largo de los años. Aprobado en 2020, el estándar de Codificación de Video Versátil (VVC), tambien conocido como H.266, redujo a la mitad la tasa de bits necesaria para codificar una secuencia en comparación con su predecesor. Sin embargo, los usuarios hoy en día tienen requisitos cada vez más exigentes, lo que ha provocado un aumento significativo en el tráfico de vídeo en Internet.
En este contexto, la codificación de vídeo perceptual tiene como objetivo reducir la tasa de bits del vídeo disminuyendo la calidad objetiva mientras se mantiene la calidad subjetiva. Este trabajo presenta un conjunto de datos novedoso diseñado para entrenar modelos para predecir la saliencia del vídeo, es decir, las áreas en el vídeo a las que los espectadores tienen más probabilidades de prestar atención. El conjunto de datos está disponible públicamente. Además, este Trabajo Fin de Máster también propone un modelo de aprendizaje automático que clasifica cada Unidad de Árbol de Codificación (CTU) como saliente o no, y ajusta su calidad en consecuencia, para poder determinar las áreas más relevantes de un fotograma de un vídeo para su posterior compresión.
ABSTRACT
Video coding standardization organizations have invested significant efforts in achieving greater compression factors over the years. Approved in 2020, the Versatile Video Coding (VVC) standard, also known as H.266, reduces the bit rate needed to encode a sequence by half compared to its predecessor. However, users today have increasingly demanding requirements, leading to a significant rise in video traffic on the Internet.
In this context, perceptual video coding aims to reduce video bit rate by decreasing the objective quality while maintaining the subjective quality. This work presents a novel dataset designed for training models to predict video saliency, i.e., areas in the video to which viewers are more likely to pay attention. The dataset is publicly available. Furthermore, this Final Master’s Project also proposes a machine learning model that classifies each Coding Tree Unit (CTU) as salient or not, and adjusts its quality accordingly to be able to establish the most relevant areas of a videoframe for its subsequent compression.
Las organizaciones de estandarización de codificación de vídeo han invertido esfuerzos significativos en lograr mayores factores de compresión a lo largo de los años. Aprobado en 2020, el estándar de Codificación de Video Versátil (VVC), tambien conocido como H.266, redujo a la mitad la tasa de bits necesaria para codificar una secuencia en comparación con su predecesor. Sin embargo, los usuarios hoy en día tienen requisitos cada vez más exigentes, lo que ha provocado un aumento significativo en el tráfico de vídeo en Internet.
En este contexto, la codificación de vídeo perceptual tiene como objetivo reducir la tasa de bits del vídeo disminuyendo la calidad objetiva mientras se mantiene la calidad subjetiva. Este trabajo presenta un conjunto de datos novedoso diseñado para entrenar modelos para predecir la saliencia del vídeo, es decir, las áreas en el vídeo a las que los espectadores tienen más probabilidades de prestar atención. El conjunto de datos está disponible públicamente. Además, este Trabajo Fin de Máster también propone un modelo de aprendizaje automático que clasifica cada Unidad de Árbol de Codificación (CTU) como saliente o no, y ajusta su calidad en consecuencia, para poder determinar las áreas más relevantes de un fotograma de un vídeo para su posterior compresión.
ABSTRACT
Video coding standardization organizations have invested significant efforts in achieving greater compression factors over the years. Approved in 2020, the Versatile Video Coding (VVC) standard, also known as H.266, reduces the bit rate needed to encode a sequence by half compared to its predecessor. However, users today have increasingly demanding requirements, leading to a significant rise in video traffic on the Internet.
In this context, perceptual video coding aims to reduce video bit rate by decreasing the objective quality while maintaining the subjective quality. This work presents a novel dataset designed for training models to predict video saliency, i.e., areas in the video to which viewers are more likely to pay attention. The dataset is publicly available. Furthermore, this Final Master’s Project also proposes a machine learning model that classifies each Coding Tree Unit (CTU) as salient or not, and adjusts its quality accordingly to be able to establish the most relevant areas of a videoframe for its subsequent compression. Read More


