Evaluación neurofisiológica del esfuerzo cognitivo en pilotos mediante machine learning, DNN y EEG en simuladores de vuelo

Bookmark (0)
Please login to bookmark Close

El objetivo general del proyecto fue investigar el uso combinado de señales neurológicas (principalmente electroencefalografía, EEG) y técnicas de inteligencia artificial para analizar y detectar distintos niveles de carga cognitiva en contextos críticos, especialmente enfocado a pilotos de avión. En otras palabras, se buscó caracterizar la relación entre la actividad cerebral medida mediante EEG y el grado de carga mental, con el fin de desarrollar modelos predictivos capaces de identificar estados de alta demanda cognitiva con alta precisión y fiabilidad. Para el desarrollo del proyecto se utilizó un conjunto de datos público con registros EEG (y adicionales como ECG) obtenidos de sujetos realizando tareas con diferentes niveles de carga mental. Estas tareas incluían escenarios con distintas dificultades teóricas, proporcionando etiquetas iniciales de carga cognitiva basadas en la dificultad de la tarea (dificultad teórica) y en la percepción subjetiva de los participantes (dificultad percibida). Durante un análisis exploratorio inicial se observó que las medidas subjetivas de carga (como la dificultad percibida por los usuarios) no correlacionaban de forma consistente con los indicadores fisiológicos de EEG/ECG. Por ello, como parte de la metodología se definió una nueva variable objetiva de carga cognitiva fundamentada en las señales EEG, buscando un indicador más fiable de la carga mental real. El preprocesamiento de los datos EEG fue una etapa crucial. Se aplicaron filtros y técnicas de limpieza para eliminar ruido de alta/baja frecuencia e interferencias de la red eléctrica, y se removieron artefactos comunes (movimientos, parpadeos) utilizando métodos especializados, mejorando la relación señal/ruido. Adicionalmente, las señales fueron normalizadas y segmentadas según las distintas fases de las tareas cognitivas. Sobre las señales depuradas se realizó una extracción sistemática de características (feature extraction) para condensar la información cerebral en descriptores numéricos útiles para los modelos de IA. En concreto, se extrajeron características en el dominio temporal y características en el dominio frecuencial. También se incluyeron índices derivados como la relación theta/alpha, la entropía espectral de la señal y medidas de asimetría entre hemisferios, todos ellos indicadores potenciales del estado cognitivo. Sobre la base de datos preprocesada y caracterizada, se entrenaron múltiples modelos predictivos para clasificar el nivel de carga cognitiva. Por un lado, se desarrolló una red neuronal profunda (DNN) adaptada al problema: una arquitectura tipo perceptrón multicapa completamente conectada, con una capa inicial que incluye ruido gaussiano, diversos bloques Dense → LeakyReLU → BatchNorm → Dropout, y una capa final Dense con 3 unidades. Esta red neuronal (DNN) fue diseñada considerando estructuras utilizadas en estudios previos, pero incorporando mejoras para nuestrocaso de uso. En paralelo, se probaron algoritmos de machine learning más clásicos, destacando un modelo de Gradient Boosting entrenado utilizando las características extraídas de las señales EEG. El uso de Gradient Boosting brinda un enfoque complementario al de la red neuronal, al construir un modelo robusto a partir de conjuntos de características de entrada y combinar múltiples árboles débiles en un predictor fuerte. La evaluación de los modelos se realizó mediante experimentos controlados de clasificación sobre los datos etiquetados de carga cognitiva. Las predicciones de cada modelo se compararon con los valores reales de nivel de carga (la dificultad teórica de la tarea) calculando métricas clave: la precisión global (accuracy), la sensibilidad (recall) para detectar correctamente los estados de alta carga y la especificidad para evitar falsas alarmas. Los resultados obtenidos demuestran la viabilidad de predecir la carga cognitiva de forma automática a partir de EEG. En general, tanto la red neuronal profunda desarrollada como el modelo de Gradient Boosting lograron desempeños satisfactorios en la clasificación de niveles de carga mental, superando en precisión a enfoques previos de la literatura. En resumen, el proyecto concluye que es posible y efectivo cuantificar la carga cognitiva de un usuario a través de señales EEG utilizando modelos de inteligencia artificial bien entrenados. Se resalta la importancia de un preprocesamiento cuidadoso (limpieza de señales y extracción de características relevantes) y de abordar adecuadamente retos como el desbalance de datos para lograr modelos confiables. Asimismo, el estudio pone de manifiesto que las medidas subjetivas de carga mental pueden no reflejar fielmente el esfuerzo cognitivo real, por lo que integrar métricas objetivas basadas en actividad cerebral resulta fundamental. El mejor modelo (Gradient Boosting) proporcionó predicciones precisas y balanceadas, demostrando que técnicas de machine learning tradicionales, combinadas con una buena selección de características EEG, pueden igualar o superar a arquitecturas profundas en este contexto específico. En conjunto, los modelos predictivos de carga cognitiva desarrollados permitieron distinguir con alta precisión diferentes estados mentales de los pilotos. Estos hallazgos sientan las bases para el desarrollo futuro de sistemas de monitorización en tiempo real del estado cognitivo en entornos de alta exigencia (como la cabina de vuelo), lo que podría ayudar a prevenir sobrecargas de trabajo y a optimizar el rendimiento cognitivo de los operadores en situaciones críticas.
ABSTRACT
The overall objective of the project was to investigate the combined use of neurological signals (primarily electroencephalography, EEG) and artificial intelligence techniques to analyze and detect different levels of cognitive load in critical contexts, with a special focus on airplane pilots. In other words, the aim was to characterize the relationship between brain activity measured via EEG and the degree of mental workload, in order to develop predictive models capable of identifying states of high cognitive demand with high precision and reliability. For the project’s development, a public dataset was used containing EEG recordings (and additional measures such as ECG) obtained from subjects performing tasks with varying levels of mental workload. These tasks included scenarios of different theoretical difficulty, providing initial cognitive-load labels based both on task difficulty (theoretical difficulty) and on participants’ subjective perception (perceived difficulty). During an initial exploratory analysis, it was observed that subjective load measures (such as perceived difficulty) did not correlate consistently with the physiological indicators from EEG/ECG. Therefore, as part of the methodology, a new objective cognitive-load variable grounded in the EEG signals was defined, seeking a more reliable indicator of true mental workload. EEG data preprocessing was a crucial stage. Filters and cleaning techniques were applied to remove high-/low-frequency noise and power-line interference, and common artifacts (movements, eye-blinks) were removed using specialized methods, improving the signal-to-noise ratio. Additionally, the signals were normalized and segmented according to the different phases of the cognitive tasks. On these cleaned signals, a systematic feature-extraction process was carried out to condense the brain information into numerical descriptors useful for the AI models. Specifically, temporal-domain features and frequency-domain features were extracted. Derived indices such as the theta/alpha ratio, spectral entropy of the signal, and inter-hemispheric asymmetry measures were also included—all of them potential indicators of cognitive state. On the basis of the preprocessed and characterized dataset, multiple predictive models were trained to classify the level of cognitive load. On one hand, a deep neural network (DNN) tailored to the problem was developed: a fully connected multilayer perceptron architecture with an input layer plus Gaussian noise, several blocks of Dense → LeakyReLU → BatchNorm → Dropout, and a final Dense output layer with 3 units. This DNN was designed considering structures used in previous studies but incorporating improvements for our use case. In parallel, more classical machinelearning algorithms were tested, most notably a Gradient Boosting model trained on the features extracted from the EEG signals. The use of Gradient Boosting provides a complementary approach to the neural network by building a robust predictor from input feature sets and combining many weak trees into a strong ensemble. Model evaluation was carried out through controlled classification experiments on the cognitively labeled data. Each model’s predictions were compared with the true load levels (theoretical task difficulty), calculating key metrics: overall accuracy, sensitivity (recall) for correctly detecting high-load states, and specificity to avoid false alarms. The results obtained demonstrate the feasibility of automatically predicting cognitive load from EEG data. In general, both the developed deep neural network and the Gradient Boosting model achieved satisfactory performance in classifying mentalload levels, surpassing the accuracy of previous literature approaches. In summary, the project concludes that it is both possible and effective to quantify a user’s cognitive load through EEG signals using well-trained AI models. The importance of careful preprocessing (signal cleaning and relevant feature extraction) and of properly addressing challenges such as class imbalance to achieve reliable models is emphasized. Moreover, the study shows that subjective measures of mental workload may not faithfully reflect actual cognitive effort, making it essential to integrate objective brain-activity–based metrics. The best model (Gradient Boosting) provided accurate and balanced predictions, demonstrating that traditional machine-learning techniques, combined with a good selection of EEG features, can match or even outperform deep architectures in this specific context. Altogether, the developed predictive models for cognitive load enabled the high-precision discrimination of different mental states in pilots. These findings lay the groundwork for the future development of real-time cognitive-state monitoring systems in high-demand environments (such as the cockpit), which could help prevent work overloads and optimize operators’ cognitive performance in critical situations.

​El objetivo general del proyecto fue investigar el uso combinado de señales neurológicas (principalmente electroencefalografía, EEG) y técnicas de inteligencia artificial para analizar y detectar distintos niveles de carga cognitiva en contextos críticos, especialmente enfocado a pilotos de avión. En otras palabras, se buscó caracterizar la relación entre la actividad cerebral medida mediante EEG y el grado de carga mental, con el fin de desarrollar modelos predictivos capaces de identificar estados de alta demanda cognitiva con alta precisión y fiabilidad. Para el desarrollo del proyecto se utilizó un conjunto de datos público con registros EEG (y adicionales como ECG) obtenidos de sujetos realizando tareas con diferentes niveles de carga mental. Estas tareas incluían escenarios con distintas dificultades teóricas, proporcionando etiquetas iniciales de carga cognitiva basadas en la dificultad de la tarea (dificultad teórica) y en la percepción subjetiva de los participantes (dificultad percibida). Durante un análisis exploratorio inicial se observó que las medidas subjetivas de carga (como la dificultad percibida por los usuarios) no correlacionaban de forma consistente con los indicadores fisiológicos de EEG/ECG. Por ello, como parte de la metodología se definió una nueva variable objetiva de carga cognitiva fundamentada en las señales EEG, buscando un indicador más fiable de la carga mental real. El preprocesamiento de los datos EEG fue una etapa crucial. Se aplicaron filtros y técnicas de limpieza para eliminar ruido de alta/baja frecuencia e interferencias de la red eléctrica, y se removieron artefactos comunes (movimientos, parpadeos) utilizando métodos especializados, mejorando la relación señal/ruido. Adicionalmente, las señales fueron normalizadas y segmentadas según las distintas fases de las tareas cognitivas. Sobre las señales depuradas se realizó una extracción sistemática de características (feature extraction) para condensar la información cerebral en descriptores numéricos útiles para los modelos de IA. En concreto, se extrajeron características en el dominio temporal y características en el dominio frecuencial. También se incluyeron índices derivados como la relación theta/alpha, la entropía espectral de la señal y medidas de asimetría entre hemisferios, todos ellos indicadores potenciales del estado cognitivo. Sobre la base de datos preprocesada y caracterizada, se entrenaron múltiples modelos predictivos para clasificar el nivel de carga cognitiva. Por un lado, se desarrolló una red neuronal profunda (DNN) adaptada al problema: una arquitectura tipo perceptrón multicapa completamente conectada, con una capa inicial que incluye ruido gaussiano, diversos bloques Dense → LeakyReLU → BatchNorm → Dropout, y una capa final Dense con 3 unidades. Esta red neuronal (DNN) fue diseñada considerando estructuras utilizadas en estudios previos, pero incorporando mejoras para nuestrocaso de uso. En paralelo, se probaron algoritmos de machine learning más clásicos, destacando un modelo de Gradient Boosting entrenado utilizando las características extraídas de las señales EEG. El uso de Gradient Boosting brinda un enfoque complementario al de la red neuronal, al construir un modelo robusto a partir de conjuntos de características de entrada y combinar múltiples árboles débiles en un predictor fuerte. La evaluación de los modelos se realizó mediante experimentos controlados de clasificación sobre los datos etiquetados de carga cognitiva. Las predicciones de cada modelo se compararon con los valores reales de nivel de carga (la dificultad teórica de la tarea) calculando métricas clave: la precisión global (accuracy), la sensibilidad (recall) para detectar correctamente los estados de alta carga y la especificidad para evitar falsas alarmas. Los resultados obtenidos demuestran la viabilidad de predecir la carga cognitiva de forma automática a partir de EEG. En general, tanto la red neuronal profunda desarrollada como el modelo de Gradient Boosting lograron desempeños satisfactorios en la clasificación de niveles de carga mental, superando en precisión a enfoques previos de la literatura. En resumen, el proyecto concluye que es posible y efectivo cuantificar la carga cognitiva de un usuario a través de señales EEG utilizando modelos de inteligencia artificial bien entrenados. Se resalta la importancia de un preprocesamiento cuidadoso (limpieza de señales y extracción de características relevantes) y de abordar adecuadamente retos como el desbalance de datos para lograr modelos confiables. Asimismo, el estudio pone de manifiesto que las medidas subjetivas de carga mental pueden no reflejar fielmente el esfuerzo cognitivo real, por lo que integrar métricas objetivas basadas en actividad cerebral resulta fundamental. El mejor modelo (Gradient Boosting) proporcionó predicciones precisas y balanceadas, demostrando que técnicas de machine learning tradicionales, combinadas con una buena selección de características EEG, pueden igualar o superar a arquitecturas profundas en este contexto específico. En conjunto, los modelos predictivos de carga cognitiva desarrollados permitieron distinguir con alta precisión diferentes estados mentales de los pilotos. Estos hallazgos sientan las bases para el desarrollo futuro de sistemas de monitorización en tiempo real del estado cognitivo en entornos de alta exigencia (como la cabina de vuelo), lo que podría ayudar a prevenir sobrecargas de trabajo y a optimizar el rendimiento cognitivo de los operadores en situaciones críticas.
ABSTRACT
The overall objective of the project was to investigate the combined use of neurological signals (primarily electroencephalography, EEG) and artificial intelligence techniques to analyze and detect different levels of cognitive load in critical contexts, with a special focus on airplane pilots. In other words, the aim was to characterize the relationship between brain activity measured via EEG and the degree of mental workload, in order to develop predictive models capable of identifying states of high cognitive demand with high precision and reliability. For the project’s development, a public dataset was used containing EEG recordings (and additional measures such as ECG) obtained from subjects performing tasks with varying levels of mental workload. These tasks included scenarios of different theoretical difficulty, providing initial cognitive-load labels based both on task difficulty (theoretical difficulty) and on participants’ subjective perception (perceived difficulty). During an initial exploratory analysis, it was observed that subjective load measures (such as perceived difficulty) did not correlate consistently with the physiological indicators from EEG/ECG. Therefore, as part of the methodology, a new objective cognitive-load variable grounded in the EEG signals was defined, seeking a more reliable indicator of true mental workload. EEG data preprocessing was a crucial stage. Filters and cleaning techniques were applied to remove high-/low-frequency noise and power-line interference, and common artifacts (movements, eye-blinks) were removed using specialized methods, improving the signal-to-noise ratio. Additionally, the signals were normalized and segmented according to the different phases of the cognitive tasks. On these cleaned signals, a systematic feature-extraction process was carried out to condense the brain information into numerical descriptors useful for the AI models. Specifically, temporal-domain features and frequency-domain features were extracted. Derived indices such as the theta/alpha ratio, spectral entropy of the signal, and inter-hemispheric asymmetry measures were also included—all of them potential indicators of cognitive state. On the basis of the preprocessed and characterized dataset, multiple predictive models were trained to classify the level of cognitive load. On one hand, a deep neural network (DNN) tailored to the problem was developed: a fully connected multilayer perceptron architecture with an input layer plus Gaussian noise, several blocks of Dense → LeakyReLU → BatchNorm → Dropout, and a final Dense output layer with 3 units. This DNN was designed considering structures used in previous studies but incorporating improvements for our use case. In parallel, more classical machinelearning algorithms were tested, most notably a Gradient Boosting model trained on the features extracted from the EEG signals. The use of Gradient Boosting provides a complementary approach to the neural network by building a robust predictor from input feature sets and combining many weak trees into a strong ensemble. Model evaluation was carried out through controlled classification experiments on the cognitively labeled data. Each model’s predictions were compared with the true load levels (theoretical task difficulty), calculating key metrics: overall accuracy, sensitivity (recall) for correctly detecting high-load states, and specificity to avoid false alarms. The results obtained demonstrate the feasibility of automatically predicting cognitive load from EEG data. In general, both the developed deep neural network and the Gradient Boosting model achieved satisfactory performance in classifying mentalload levels, surpassing the accuracy of previous literature approaches. In summary, the project concludes that it is both possible and effective to quantify a user’s cognitive load through EEG signals using well-trained AI models. The importance of careful preprocessing (signal cleaning and relevant feature extraction) and of properly addressing challenges such as class imbalance to achieve reliable models is emphasized. Moreover, the study shows that subjective measures of mental workload may not faithfully reflect actual cognitive effort, making it essential to integrate objective brain-activity–based metrics. The best model (Gradient Boosting) provided accurate and balanced predictions, demonstrating that traditional machine-learning techniques, combined with a good selection of EEG features, can match or even outperform deep architectures in this specific context. Altogether, the developed predictive models for cognitive load enabled the high-precision discrimination of different mental states in pilots. These findings lay the groundwork for the future development of real-time cognitive-state monitoring systems in high-demand environments (such as the cockpit), which could help prevent work overloads and optimize operators’ cognitive performance in critical situations. Read More