Diseño e implementación de una cadena de grabación – reproducción biaural de audio espacial para norma MPEG-H

Bookmark (0)
Please login to bookmark Close

PEG ha dado lugar a un cambio en la forma en la que los usuarios disfrutamos del contenido multimedia. Desde 1930, con el nacimiento de las grabaciones estéreo, se ha tratado de perfeccionar la experiencia auditiva de los usuarios, pasando de configuraciones en las que dos canales incluían la misma información a estructuras conformadas por múltiples señales, de manera que el oyente es capaz de percibir el origen del sonido e incluso la sensación espacial de su entorno. Este paradigma ha motivado la elección de la elaboración de este Trabajo de Fin de Máster, en el que se integran múltiples conceptos relacionados con el tratamiento de audio mediante la implementación de distintos sistemas. La elaboración de la investigación llevada a cabo a lo largo de este trabajo se organiza, principalmente, alrededor de tres ejes: el estudio de la base matemática que sustenta la Física de las ondas sonoras en el espacio tridimensional, el tratamiento de dichas señales para su transformación y su procesamiento para presentarlas de manera correcta al oyente. Esto constituirá el punto de partida para la construcción de dos sistemas en los que podremos verificar dicha base teórica. Una señal sonora de 19 canales generada por un micrófono de tipo matriz dará comienzo a la cadena de procesamiento de audio que culminará mediante su entrega de naturaleza biaural. Para ello, se ha transformado la muestra inicial a una en el formato – B de Ambisonics, que consiste en un sistema multicanal que ofrece un sonido envolvente y tridimensional. De entre todas las posibilidades que ofrece este sistema en cuanto al número de canales, se eligen un total de 16, los cuales contendrán toda la información necesaria de la toma original. Tras esto, se computa la rotación espacial de cada una de las fuentes sonoras, de manera que el oyente las perciba en la posición deseada. A continuación, se elabora una decodificación en la que las fuentes pasarán a formar parte de un sistema de 12 canales, el 7.1.4. Llegamos a la etapa final del procesado, en la que se decodifica la señal anterior a un sistema biaural, es decir, a una configuración de dos canales que cuentan con la información necesaria del espacio sonoro y a través de la cual el oyente puede obtener una experiencia 3D sin necesidad de un gran número de altavoces físicos, sino que solo requiere el uso de auriculares. La cadena se ha desarrollado en forma de dos sistemas. El primero, al que hemos denominado “piloto”, se ha programado en Python y ha servido como la base y verificación del resultado del segundo, un Plug – In importable en una Estación de Audio Digital y operable en tiempo real. Además, se ha utilizado un hardware específico para la correcta presentación del sistema sonoro mediante la generación de señales que permitirán el emplazamiento del sonido estereofónico. De esta manera, hemos comprobado que la teoría se puede llevar a cabo en la práctica gracias a los medios y herramientas adecuados.
Abstract
The rapid evolution of audio formats and standards from organizations such as ITU and MPEG has transformed how listeners experience multimedia. Building on this context, this Master’s Thesis examines key concepts in spatial audio processing and implements a full workflow to validate them in practice. The research focuses on three main areas: the mathematical and physical principles governing sound propagation in three-dimensional space, the signal transformations required for spatial manipulation, and the processing techniques used to render immersive audio to the listener.
The project begins with a 19-channel recording captured using a microphone array and progresses toward a binaural representation. A 3rd-order Ambisonics B-format signal is derived, spatially rotated, and decoded to a 12-channel ITU 7.1.4 configuration before being rendered binaurally for headphone playback. This end-to-end chain is implemented in two systems: an initial Python-based prototype used to verify the theoretical framework, and a fully developed audio plug-in designed for integration within a digital audio workstation. Additionally, binaural reproduction is supported by hardware capable of capturing the surrounding acoustic field.
Overall, the results confirm that the theoretical foundations of spatial audio can be effectively translated into working systems when supported by appropriate tools and processing methods.

​PEG ha dado lugar a un cambio en la forma en la que los usuarios disfrutamos del contenido multimedia. Desde 1930, con el nacimiento de las grabaciones estéreo, se ha tratado de perfeccionar la experiencia auditiva de los usuarios, pasando de configuraciones en las que dos canales incluían la misma información a estructuras conformadas por múltiples señales, de manera que el oyente es capaz de percibir el origen del sonido e incluso la sensación espacial de su entorno. Este paradigma ha motivado la elección de la elaboración de este Trabajo de Fin de Máster, en el que se integran múltiples conceptos relacionados con el tratamiento de audio mediante la implementación de distintos sistemas. La elaboración de la investigación llevada a cabo a lo largo de este trabajo se organiza, principalmente, alrededor de tres ejes: el estudio de la base matemática que sustenta la Física de las ondas sonoras en el espacio tridimensional, el tratamiento de dichas señales para su transformación y su procesamiento para presentarlas de manera correcta al oyente. Esto constituirá el punto de partida para la construcción de dos sistemas en los que podremos verificar dicha base teórica. Una señal sonora de 19 canales generada por un micrófono de tipo matriz dará comienzo a la cadena de procesamiento de audio que culminará mediante su entrega de naturaleza biaural. Para ello, se ha transformado la muestra inicial a una en el formato – B de Ambisonics, que consiste en un sistema multicanal que ofrece un sonido envolvente y tridimensional. De entre todas las posibilidades que ofrece este sistema en cuanto al número de canales, se eligen un total de 16, los cuales contendrán toda la información necesaria de la toma original. Tras esto, se computa la rotación espacial de cada una de las fuentes sonoras, de manera que el oyente las perciba en la posición deseada. A continuación, se elabora una decodificación en la que las fuentes pasarán a formar parte de un sistema de 12 canales, el 7.1.4. Llegamos a la etapa final del procesado, en la que se decodifica la señal anterior a un sistema biaural, es decir, a una configuración de dos canales que cuentan con la información necesaria del espacio sonoro y a través de la cual el oyente puede obtener una experiencia 3D sin necesidad de un gran número de altavoces físicos, sino que solo requiere el uso de auriculares. La cadena se ha desarrollado en forma de dos sistemas. El primero, al que hemos denominado “piloto”, se ha programado en Python y ha servido como la base y verificación del resultado del segundo, un Plug – In importable en una Estación de Audio Digital y operable en tiempo real. Además, se ha utilizado un hardware específico para la correcta presentación del sistema sonoro mediante la generación de señales que permitirán el emplazamiento del sonido estereofónico. De esta manera, hemos comprobado que la teoría se puede llevar a cabo en la práctica gracias a los medios y herramientas adecuados.
Abstract
The rapid evolution of audio formats and standards from organizations such as ITU and MPEG has transformed how listeners experience multimedia. Building on this context, this Master’s Thesis examines key concepts in spatial audio processing and implements a full workflow to validate them in practice. The research focuses on three main areas: the mathematical and physical principles governing sound propagation in three-dimensional space, the signal transformations required for spatial manipulation, and the processing techniques used to render immersive audio to the listener.
The project begins with a 19-channel recording captured using a microphone array and progresses toward a binaural representation. A 3rd-order Ambisonics B-format signal is derived, spatially rotated, and decoded to a 12-channel ITU 7.1.4 configuration before being rendered binaurally for headphone playback. This end-to-end chain is implemented in two systems: an initial Python-based prototype used to verify the theoretical framework, and a fully developed audio plug-in designed for integration within a digital audio workstation. Additionally, binaural reproduction is supported by hardware capable of capturing the surrounding acoustic field.
Overall, the results confirm that the theoretical foundations of spatial audio can be effectively translated into working systems when supported by appropriate tools and processing methods. Read More