Monitorización a través de la voz y mediante redes neuronales de pacientes de la enfermedad de Parkinson

Bookmark (0)
Please login to bookmark Close

La enfermedad de Parkinson es un trastorno neurodegenerativo crónico que afecta progresivamente las capacidades motoras y, en etapas tempranas, puede manifestarse mediante alteraciones en la voz y el habla. Este Trabajo de Fin de Grado desarrolla y compara dos enfoques basados en redes neuronales para la detección de la enfermedad de Parkinson a partir de grabaciones de voz en español. Se implementó una red neuronal convolucional (CNN) construida desde cero con TensorFlow/Keras, además de un ajuste fino (fine-tuning) de un modelo preentrenado denominado Audio Spectrogram Transformer (AST). En ambos casos se utilizó la librería Optuna para optimizar los hiperparámetros de los modelos. Se utilizaron los conjuntos de datos de PC-GITA y NeuroVoz, además de una combinación de los dos. Los resultados muestran que la CNN alcanza una exactitud al rededor del 70 % en los tres conjuntos de datos, mientras que el AST logra valores alrededor del 80 %. Esto corrobora el potencial de los AST y el transfer learning, superando incluso a modelos con arquitecturas ad hoc en entornos con datos moderados. También se abordan consideraciones sobre impacto ´ético, privacidad de datos y limitaciones del estudio. En conclusión, este trabajo evidencia la viabilidad de la voz como biomarcador y la utilidad de modelos de Deep Learning para la identificación no invasiva de la enfermedad, facilitando su posible implementación clínica.
ABSTRACT
Parkinson’s disease is a chronic neurodegenerative disorder that progressively affects motor abilities and, in its early stages, can manifest through voice and speech alterations. This Final Thesis Project develops and compares two neural network-based approaches for detecting Parkinson’s disease using Spanish voice recordings. A convolutional neural network (CNN) was implemented from scratch with TensorFlow/Keras, along with fine-tuning of a pre-trained model called the Audio Spectrogram Transformer (AST). In both cases, the Optuna library was used to optimize the models’ hyperparameters. The PC-GITA and NeuroVoz datasets were utilized, as well as a combination of the two. The results show that the CNN achieves an accuracy around 70 % across all three datasets, while the AST achieves values around 80 %. This corroborates the potential of ASTs, even beating CNN models with ad hoc architectures in moderate data environments. Ethical impact considerations, data privacy, and study limitations are also discussed. In conclusion, this project demonstrates the feasibility of voice as a biomarker and the utility of Deep Learning models for non-invasive disease identification, facilitating potential clinical implementation.

​La enfermedad de Parkinson es un trastorno neurodegenerativo crónico que afecta progresivamente las capacidades motoras y, en etapas tempranas, puede manifestarse mediante alteraciones en la voz y el habla. Este Trabajo de Fin de Grado desarrolla y compara dos enfoques basados en redes neuronales para la detección de la enfermedad de Parkinson a partir de grabaciones de voz en español. Se implementó una red neuronal convolucional (CNN) construida desde cero con TensorFlow/Keras, además de un ajuste fino (fine-tuning) de un modelo preentrenado denominado Audio Spectrogram Transformer (AST). En ambos casos se utilizó la librería Optuna para optimizar los hiperparámetros de los modelos. Se utilizaron los conjuntos de datos de PC-GITA y NeuroVoz, además de una combinación de los dos. Los resultados muestran que la CNN alcanza una exactitud al rededor del 70 % en los tres conjuntos de datos, mientras que el AST logra valores alrededor del 80 %. Esto corrobora el potencial de los AST y el transfer learning, superando incluso a modelos con arquitecturas ad hoc en entornos con datos moderados. También se abordan consideraciones sobre impacto ´ético, privacidad de datos y limitaciones del estudio. En conclusión, este trabajo evidencia la viabilidad de la voz como biomarcador y la utilidad de modelos de Deep Learning para la identificación no invasiva de la enfermedad, facilitando su posible implementación clínica.
ABSTRACT
Parkinson’s disease is a chronic neurodegenerative disorder that progressively affects motor abilities and, in its early stages, can manifest through voice and speech alterations. This Final Thesis Project develops and compares two neural network-based approaches for detecting Parkinson’s disease using Spanish voice recordings. A convolutional neural network (CNN) was implemented from scratch with TensorFlow/Keras, along with fine-tuning of a pre-trained model called the Audio Spectrogram Transformer (AST). In both cases, the Optuna library was used to optimize the models’ hyperparameters. The PC-GITA and NeuroVoz datasets were utilized, as well as a combination of the two. The results show that the CNN achieves an accuracy around 70 % across all three datasets, while the AST achieves values around 80 %. This corroborates the potential of ASTs, even beating CNN models with ad hoc architectures in moderate data environments. Ethical impact considerations, data privacy, and study limitations are also discussed. In conclusion, this project demonstrates the feasibility of voice as a biomarker and the utility of Deep Learning models for non-invasive disease identification, facilitating potential clinical implementation. Read More