La inteligencia artificial y en especial el aprendizaje automático se presentan como una revolución tecnológica, que en los últimos tiempos ha cambiado por completo el paradigma de la computación. Gracias a su enfoque se han logrado resolver problemas que antes resultaban impensables y mejorar el rendimiento y precisión de muchas tecnologías ya existentes. El propósito de este proyecto es aplicar el aprendizaje automático para proponer y probar la viabilidad de un sistema de conversión de audio a MIDI, especialmente pensado para guitarra y bajo eléctricos.
Para llevar a cabo el proyecto, se han estudiado las distintas metodologías seguidas en el campo del aprendizaje automático aplicado a audio y se ha elegido la óptima para el problema a resolver.
Se ha planteado un sistema basado en redes neuronales enfocadas a la clasificación, cuya información de entrada es una señal de audio enventanada que contiene el transitorio inicial de la nota. De esta forma, se propone una alternativa para mejorar la latencia impuesta por otros algoritmos de detección de tono, presentes en las aplicaciones ya existentes de conversión de audio a MIDI en tiempo real para guitarra y bajo.
En este proyecto se propone una arquitectura de redes neuronales basada en capas convolucionales unidimensionales y capas densas. La arquitectura se ha codificado y entrenado en Python empleando un conjunto de datos propio. Durante el entrenamiento se ha evaluado la precisión de la red y como de sólido ha sido su aprendizaje.
Se han propuesto varios casos de estudio con los que analizar el comportamiento de las redes neuronales para distintos números de notas, tamaños del conjunto de datos con los que se entrenan y para los dos instrumentos contemplados.
A partir de los resultados obtenidos, se puede afirmar que las bases del sistema propuesto cumplen de forma sobresaliente con su cometido, aunque el factor de la latencia se debe estudiar en futuras investigaciones.
Abstract:
Artificial intelligence and especially machine learning are presented as a technological revolution, which in recent times has completely changed the paradigm of computing. Thanks to its basis, previously unthinkable problems have been solved and the performance and accuracy of many existing technologies have been improved. The purpose of this project is to apply autonomous learning to propose and test the feasibility of an audio-to-MIDI conversion system, especially designed for electric guitar and bass.
To carry out the project, the different methodologies followed in the field of machine learning applied to audio have been studied and the optimal one for the problem to be solved has been chosen.
A system based on neural networks focused on classification has been proposed, whose input information is an enveloped audio signal containing the initial transient of the note. In this way, an alternative is proposed to improve the latency imposed by other pitch detection algorithms present in already existing real-time audio-to-MIDI conversion applications for guitar and bass.
In this project, a neural network architecture based on one-dimensional convolutional layers and dense layers is proposed. The architecture has been coded and trained in Python using a proprietary dataset. During training, the accuracy and learning capability of the network has been evaluated.
Several case studies have been proposed to analyze the behavior of the neural networks for different numbers of notes, sizes of the dataset with which they are trained and for the two instruments considered.
From the results obtained, it can be affirmed that the basis of the proposed system performs outstandingly well, although the latency factor should be studied in future research.
La inteligencia artificial y en especial el aprendizaje automático se presentan como una revolución tecnológica, que en los últimos tiempos ha cambiado por completo el paradigma de la computación. Gracias a su enfoque se han logrado resolver problemas que antes resultaban impensables y mejorar el rendimiento y precisión de muchas tecnologías ya existentes. El propósito de este proyecto es aplicar el aprendizaje automático para proponer y probar la viabilidad de un sistema de conversión de audio a MIDI, especialmente pensado para guitarra y bajo eléctricos.
Para llevar a cabo el proyecto, se han estudiado las distintas metodologías seguidas en el campo del aprendizaje automático aplicado a audio y se ha elegido la óptima para el problema a resolver.
Se ha planteado un sistema basado en redes neuronales enfocadas a la clasificación, cuya información de entrada es una señal de audio enventanada que contiene el transitorio inicial de la nota. De esta forma, se propone una alternativa para mejorar la latencia impuesta por otros algoritmos de detección de tono, presentes en las aplicaciones ya existentes de conversión de audio a MIDI en tiempo real para guitarra y bajo.
En este proyecto se propone una arquitectura de redes neuronales basada en capas convolucionales unidimensionales y capas densas. La arquitectura se ha codificado y entrenado en Python empleando un conjunto de datos propio. Durante el entrenamiento se ha evaluado la precisión de la red y como de sólido ha sido su aprendizaje.
Se han propuesto varios casos de estudio con los que analizar el comportamiento de las redes neuronales para distintos números de notas, tamaños del conjunto de datos con los que se entrenan y para los dos instrumentos contemplados.
A partir de los resultados obtenidos, se puede afirmar que las bases del sistema propuesto cumplen de forma sobresaliente con su cometido, aunque el factor de la latencia se debe estudiar en futuras investigaciones.
Abstract:
Artificial intelligence and especially machine learning are presented as a technological revolution, which in recent times has completely changed the paradigm of computing. Thanks to its basis, previously unthinkable problems have been solved and the performance and accuracy of many existing technologies have been improved. The purpose of this project is to apply autonomous learning to propose and test the feasibility of an audio-to-MIDI conversion system, especially designed for electric guitar and bass.
To carry out the project, the different methodologies followed in the field of machine learning applied to audio have been studied and the optimal one for the problem to be solved has been chosen.
A system based on neural networks focused on classification has been proposed, whose input information is an enveloped audio signal containing the initial transient of the note. In this way, an alternative is proposed to improve the latency imposed by other pitch detection algorithms present in already existing real-time audio-to-MIDI conversion applications for guitar and bass.
In this project, a neural network architecture based on one-dimensional convolutional layers and dense layers is proposed. The architecture has been coded and trained in Python using a proprietary dataset. During training, the accuracy and learning capability of the network has been evaluated.
Several case studies have been proposed to analyze the behavior of the neural networks for different numbers of notes, sizes of the dataset with which they are trained and for the two instruments considered.
From the results obtained, it can be affirmed that the basis of the proposed system performs outstandingly well, although the latency factor should be studied in future research. Read More


