Modelos neuronales para la creación de piezas musicales en piano

Bookmark (0)
Please login to bookmark Close

Este Trabajo de Fin de Grado explora el reto de generar sintéticamente piezas a piano mediante Inteligencia Artificial, enfocándose en preservar la armonía y fluidez melódica. La premisa central plantea que, mediante un procesamiento eficaz de la información musical y la implementación de modelos neuronales especializados, es posible generar secuencias de notas que integren complejidad rítmica con una experiencia auditiva satisfactoria. Se han implementado diversas arquitecturas de redes neuronales, entre las cuales se incluyen las redes neuronales recurrentes (RNN), con especial atención a las unidades de memoria a corto-largo plazo (LSTM), las unidades recurrentes cerradas (GRU) y modelos híbridos de los anteriores. Así mismo, se incorpora el modelo autorregresivo WaveNet, lo que permite una exploración más amplia de técnicas avanzadas en el modelado de secuencias temporales musicales. Cada modelo neuronal se alimenta de un conjunto de datos musicales que ha sido necesario preprocesar de forma específica, adaptando las características sonoras a los requisitos técnicos de generación melódica. El proceso de implementación común se sustenta en tres pilares: optimización de hiperparámetros, técnicas de control de sobre-entrenamiento e implementación de técnicas para estimular la variación creativa en las producciones musicales. Este trabajo presenta asimismo una evaluación comparativa de modelos neuronales, revelando su capacidad para predecir elementos como altura tonal, subsecuencias únicas y escalas melódicas propias. El estudio se complementa con valoraciones perceptuales auditivas para medir con mayor precisión la eficacia de distintos métodos computacionales en la creación musical. Los resultados muestran que, si bien las arquitecturas implementadas aún no alcanzan la complejidad compositiva del ser humano, son capaces de generar piezas para piano sorprendentemente expresivas, que logran un equilibrio atractivo entre innovación y coherencia melódica. En particular, las implementaciones de modelos como WaveNet, GRU y el enfoque híbrido LSTMGRU han demostrado ser especialmente adecuadas para la creación de melodías sintéticas a piano, gracias a su capacidad para producir secuencias musicalmente ricas, dinámicas y estructuralmente coherentes. Los modelos neuronales desarrollados tienen aplicación en el desarrollo de herramientas pedagógicas y de asistencia creativa, sentando un punto de partida para futuras aplicaciones artísticas en el campo de la generación musical automatizada.
ABSTRACT
This Final Degree Project explores the challenge of generating piano pieces using Artificial Intelligence , focusing on preserving harmony and melodic fluency. The central assumption is that, through efficient processing of musical information and the implementation of specialised neural models, it is possible to generate sequences of notes that integrate rhythmic complexity with a satisfactory listening experience. Several neural network architectures have been implemented, including recurrent neural networks (RNN), with a focus on long short-term memory units (LSTM), gated recurrent units (GRU) and hybrid models of the latter. In addition, the WaveNet autoregressive model is incorporated, allowing a wider exploration of advanced techniques in the modelling of temporal music sequences. Each neural model is supplied with specific musical data processing, adapting the audio characteristics to the technical requirements of melodic generation. The common implementation process is based on three pillars: hyperparameter optimisation, overfitting control techniques and implementation of resources that stimulate creative variation in music generations. This project also presents a comparative evaluation of neural models, revealing their ability to predict elements such as pitch, unique sub-sequences and melodic scales of their own. The study is complemented by auditory perceptual assessments to measure more accurately the effectiveness of different computational methods in music creation. The results show that, while the implemented architectures do not yet reach human compositional complexity, they are capable of generating surprisingly expressive piano pieces that achieve an appealing balance between innovation and melodic coherence. In particular, implementations of models such as WaveNet, GRU and the hybrid LSTM-GRU approach have demonstrated to be particularly well suited for the creation of synthetic piano melodies, due to their ability to produce musically rich, dynamic and structurally coherent sequences. The neural models developed have application in the development of pedagogical tools and creative assistance, establishing a solid basis for future artistic applications in the field of automated music generation.

​Este Trabajo de Fin de Grado explora el reto de generar sintéticamente piezas a piano mediante Inteligencia Artificial, enfocándose en preservar la armonía y fluidez melódica. La premisa central plantea que, mediante un procesamiento eficaz de la información musical y la implementación de modelos neuronales especializados, es posible generar secuencias de notas que integren complejidad rítmica con una experiencia auditiva satisfactoria. Se han implementado diversas arquitecturas de redes neuronales, entre las cuales se incluyen las redes neuronales recurrentes (RNN), con especial atención a las unidades de memoria a corto-largo plazo (LSTM), las unidades recurrentes cerradas (GRU) y modelos híbridos de los anteriores. Así mismo, se incorpora el modelo autorregresivo WaveNet, lo que permite una exploración más amplia de técnicas avanzadas en el modelado de secuencias temporales musicales. Cada modelo neuronal se alimenta de un conjunto de datos musicales que ha sido necesario preprocesar de forma específica, adaptando las características sonoras a los requisitos técnicos de generación melódica. El proceso de implementación común se sustenta en tres pilares: optimización de hiperparámetros, técnicas de control de sobre-entrenamiento e implementación de técnicas para estimular la variación creativa en las producciones musicales. Este trabajo presenta asimismo una evaluación comparativa de modelos neuronales, revelando su capacidad para predecir elementos como altura tonal, subsecuencias únicas y escalas melódicas propias. El estudio se complementa con valoraciones perceptuales auditivas para medir con mayor precisión la eficacia de distintos métodos computacionales en la creación musical. Los resultados muestran que, si bien las arquitecturas implementadas aún no alcanzan la complejidad compositiva del ser humano, son capaces de generar piezas para piano sorprendentemente expresivas, que logran un equilibrio atractivo entre innovación y coherencia melódica. En particular, las implementaciones de modelos como WaveNet, GRU y el enfoque híbrido LSTMGRU han demostrado ser especialmente adecuadas para la creación de melodías sintéticas a piano, gracias a su capacidad para producir secuencias musicalmente ricas, dinámicas y estructuralmente coherentes. Los modelos neuronales desarrollados tienen aplicación en el desarrollo de herramientas pedagógicas y de asistencia creativa, sentando un punto de partida para futuras aplicaciones artísticas en el campo de la generación musical automatizada.
ABSTRACT
This Final Degree Project explores the challenge of generating piano pieces using Artificial Intelligence , focusing on preserving harmony and melodic fluency. The central assumption is that, through efficient processing of musical information and the implementation of specialised neural models, it is possible to generate sequences of notes that integrate rhythmic complexity with a satisfactory listening experience. Several neural network architectures have been implemented, including recurrent neural networks (RNN), with a focus on long short-term memory units (LSTM), gated recurrent units (GRU) and hybrid models of the latter. In addition, the WaveNet autoregressive model is incorporated, allowing a wider exploration of advanced techniques in the modelling of temporal music sequences. Each neural model is supplied with specific musical data processing, adapting the audio characteristics to the technical requirements of melodic generation. The common implementation process is based on three pillars: hyperparameter optimisation, overfitting control techniques and implementation of resources that stimulate creative variation in music generations. This project also presents a comparative evaluation of neural models, revealing their ability to predict elements such as pitch, unique sub-sequences and melodic scales of their own. The study is complemented by auditory perceptual assessments to measure more accurately the effectiveness of different computational methods in music creation. The results show that, while the implemented architectures do not yet reach human compositional complexity, they are capable of generating surprisingly expressive piano pieces that achieve an appealing balance between innovation and melodic coherence. In particular, implementations of models such as WaveNet, GRU and the hybrid LSTM-GRU approach have demonstrated to be particularly well suited for the creation of synthetic piano melodies, due to their ability to produce musically rich, dynamic and structurally coherent sequences. The neural models developed have application in the development of pedagogical tools and creative assistance, establishing a solid basis for future artistic applications in the field of automated music generation. Read More