Las señales fisiológicas son inherentemente complejas, pero sirven como una fuente crítica de conocimiento clínico. La integración de estos datos en sistemas de AI ha demostrado capacidades prometedoras para complementar la práctica clínica convencional. No obstante, el grado de aplicabilidad de estos sistemas puede estar limitado por la falta de transparencia de los algoritmos utilizados. La fisiología cardíaca mantiene una estrecha relación con la PPG, ya que es una fuente de señales fisiológicas del ciclo cardíaco que se pueden medir de manera no invasiva, proporcionando información clínicamente útil. La PPG tradicional utiliza contacto con la piel para la medición de señales basadas en luz, lo que contrasta con la rPPG, que captura señales de forma remota a través de grabaciones de video. El objetivo de este trabajo es evaluar si las señales PPG en diversos escenarios de aplicación pueden ser efectivamente representadas en espacios latentes de baja dimensión utilizando diversos algoritmos de MnL, y analizar las características extraídas y sus aplicaciones.
Los conjuntos de datos utilizados incluyen el Wrist PPG Dataset, BIDMC PPG and Respiration Dataset, UBFC-RPPG Video dataset, y FaceForensics++ dataset, que cubren diversas condiciones, desde escenarios clínicos hasta la vida cotidiana. Además, se introduce una nueva arquitectura de transformador de video, PhysFormer, para extraer señales de rPPG del conjunto de datos FaceForensics++. Se utilizan pasos de preprocesamiento como la eliminación de tendencia de señales, filtrado de paso bajo, remuestreo, normalización Z-score, y almacenamiento en búfer para mejorar la calidad de los datos y la homogeneidad entre los conjuntos de datos, preparándolos para el procesamiento de algoritmos de MnL.
Las técnicas de MnL se utilizan para procesar las señales de PPG y rPPG capturadas. Las señales de entrada se proyectan en un espacio latente visualizable utilizando una colección de métodos de reducción de dimensionalidad: UMAP no supervisado, UMAP supervisado, UMAP paramétrico, AE, FCNN, y KAE. Los hiperparámetros óptimos de cada algoritmo se buscan utilizando una estrategia de validación cruzada de 5 pliegues.
Los experimentos evalúan los métodos propuestos en cuatro fases. Primero, se realiza un experimento preliminar utilizando el conjunto de datos MNIST para verificar el correcto funcionamiento de los métodos y la estrategia de validación cruzada. Luego, se utilizan fuentes de PPG para obtener las representaciones latentes y extraer conclusiones sobre las características conservadas en este espacio de baja dimensionalidad. En segundo lugar, se comparan las señales de rPPG y PPG para estudiar las similitudes entre las dos modalidades de adquisición de señales. Finalmente, se realiza un experimento de prueba de concepto de detección de videos falsos con rPPG, utilizando el conjunto de datos FaceForensics++ para probar la distinción entre señales de video reales y manipuladas en el espacio latente. En los experimentos, los modelos de reducción de dimensionalidad fueron evaluados utilizando el DBI, MSE, y CE. En el Experimento 1, el modelo AE demostró el mejor rendimiento en términos de MSE, con un valor de 0.1863, mientras que el modelo UMAP supervisado destacó en términos de DBI, logrando un valor de 8.8564. El modelo FCNN registró una CE de 0.8564. En el Experimento 2, el modelo UMAP paramétrico mostró el mejor rendimiento con un MSE de 0.1546 en la prueba final. UMAP supervisado logró un DBI de 1.7028 en la prueba. En términos de CE, el modelo FCNN tuvo un valor de 0.0726 en el conjunto de prueba. En el Experimento 3, el modelo AE logró el mejor rendimiento en términos de MSE, con un valor final de prueba de 0.0025 y el modelo UMAP supervisado logró un DBI de 5.9684 en la prueba final. En términos de CE, el modelo FCNN registró un valor final de prueba de 0.6618.
Los experimentos realizados en este estudio subrayan la eficacia de los algoritmos de MnLparagenerar representaciones visualizables a partir de entradas de datos de alta dimensionalidad. El análisis de señales de PPG dentro de estas representaciones de baja dimensionalidad revela que, dado una selección adecuada de hiperparámetros, los métodos propuestos extraen efectivamente características intrínsecas, reteniendo la periodicidad y las propiedades morfológicas de las señales de entrada.
–ABSTRACT–
Physiological signals are inherently complex yet serve as a critical source of clinical knowledge. Integrating this data into Artificial Intelligence (AI) systems has shown promising capabilities in complementing conventional clinical practice. Nonetheless, the extent of applicability of these systems may be limited by the lack of transparency of the used algorithms. Cardiac physiology maintains a close relation with Photoplethysmography (PPG) as it is a source of physiological signals of the heart cycle which can be measured non-invasively providing clinically useful information. Traditional PPG uses skin contact for light-based signal measurement, which contrasts with Remote Photoplethysmography (rPPG), capturing signals remotely through video recordings. The objective of this work is to evaluate if PPG signals in various application scenarios can be effectively represented in low-dimensional latent spaces using diverse Manifold Learning (MnL) algorithms, and to analyze the extracted features and their applications.
Datasets used here include the Wrist PPG Dataset, BIDMC PPG and Respiration Dataset, UBFC-RPPG Video dataset, and FaceForensics++ dataset, covering various conditions from clinical to daily-life scenarios. Additionally, a novel video transformer architecture, PhysFormer, is introduced for extracting rPPG signals from the FaceForensics++ dataset. Preprocessing steps such as signal detrending, low-pass filtering, resampling, Z-score normalization, and buffering are used to enhance data quality and homogeneity between datasets, preparing them for MnL algorithms processing. MnL techniques are used to process the PPG and captured rPPG signals. The input signals are projected into visualizable latent space using a collection of dimensionality reduction methods: Unsupervised Uniform Manifold Approximation and Projection (UMAP), Supervised UMAP, Parametric UMAP, Autoencoder (AE), Fully Connected Neural Network (FCNN), and Kernel Autoencoder (KAE). The optimal hyperparameters of each algorithm are searched using a 5-fold cross-validation strategy.
Experiments evaluate the proposed methods in four phases. First, a preliminary experiment using the Modified National Institute of Standards and Technology (MNIST) dataset is performed to verify the proper function of the methods and the crossvalidation strategy. Then PPG sources are used to get the latent representations and extract conclusions regarding the features conserved in this low-dimensional space. Third, rPPG and PPG signals are compared to study the similarities between the two modalities of signal acquisition. Finally, a proof-of-concept experiment of fake video detection is performed with rPPG, utilizing the FaceForensics++ dataset to test the distinction between real and manipulated video signals in the latent space. In the experiments, dimensionality reduction models were evaluated using the Davies–Bouldin iiiIndex (DBI), Mean Square Error (MSE), and Cross-entropy (CE). In Experiment 1, the AE model demonstrated the best performance in terms of MSE, with a value of 0.1863, while the Supervised UMAP model excelled in terms of DBI, achieving a value of 8.8564. The FCNN model recorded a CE of 0.8564. In Experiment 2, the Parametric UMAP model showed the best performance with an MSE of 0.1546 in the final test. Supervised UMAP achieved a DBI of 1.7028 in the test. In terms of CE, the FCNN model had a value of 0.0726 on the test set. In Experiment 3, the AE model achieved the best performance in terms of MSE, with a final test value of 0.0025 and the Supervised UMAP model achieved a DBI of 5.9684 in the final test. In terms of CE, the FCNN model recorded a final test value of 0.6618.
The experiments conducted in this study underline the efficacy of MnL algorithms in generating visualizable representations from high-dimensional data inputs. The analysis of PPG signals within these low-dimensional representations revealed that, given an adequate hyperparameter selection, the proposed methods effectively extract intrinsic features, retaining the periodicity and morphological properties of the input signals.
Las señales fisiológicas son inherentemente complejas, pero sirven como una fuente crítica de conocimiento clínico. La integración de estos datos en sistemas de AI ha demostrado capacidades prometedoras para complementar la práctica clínica convencional. No obstante, el grado de aplicabilidad de estos sistemas puede estar limitado por la falta de transparencia de los algoritmos utilizados. La fisiología cardíaca mantiene una estrecha relación con la PPG, ya que es una fuente de señales fisiológicas del ciclo cardíaco que se pueden medir de manera no invasiva, proporcionando información clínicamente útil. La PPG tradicional utiliza contacto con la piel para la medición de señales basadas en luz, lo que contrasta con la rPPG, que captura señales de forma remota a través de grabaciones de video. El objetivo de este trabajo es evaluar si las señales PPG en diversos escenarios de aplicación pueden ser efectivamente representadas en espacios latentes de baja dimensión utilizando diversos algoritmos de MnL, y analizar las características extraídas y sus aplicaciones.
Los conjuntos de datos utilizados incluyen el Wrist PPG Dataset, BIDMC PPG and Respiration Dataset, UBFC-RPPG Video dataset, y FaceForensics++ dataset, que cubren diversas condiciones, desde escenarios clínicos hasta la vida cotidiana. Además, se introduce una nueva arquitectura de transformador de video, PhysFormer, para extraer señales de rPPG del conjunto de datos FaceForensics++. Se utilizan pasos de preprocesamiento como la eliminación de tendencia de señales, filtrado de paso bajo, remuestreo, normalización Z-score, y almacenamiento en búfer para mejorar la calidad de los datos y la homogeneidad entre los conjuntos de datos, preparándolos para el procesamiento de algoritmos de MnL.
Las técnicas de MnL se utilizan para procesar las señales de PPG y rPPG capturadas. Las señales de entrada se proyectan en un espacio latente visualizable utilizando una colección de métodos de reducción de dimensionalidad: UMAP no supervisado, UMAP supervisado, UMAP paramétrico, AE, FCNN, y KAE. Los hiperparámetros óptimos de cada algoritmo se buscan utilizando una estrategia de validación cruzada de 5 pliegues.
Los experimentos evalúan los métodos propuestos en cuatro fases. Primero, se realiza un experimento preliminar utilizando el conjunto de datos MNIST para verificar el correcto funcionamiento de los métodos y la estrategia de validación cruzada. Luego, se utilizan fuentes de PPG para obtener las representaciones latentes y extraer conclusiones sobre las características conservadas en este espacio de baja dimensionalidad. En segundo lugar, se comparan las señales de rPPG y PPG para estudiar las similitudes entre las dos modalidades de adquisición de señales. Finalmente, se realiza un experimento de prueba de concepto de detección de videos falsos con rPPG, utilizando el conjunto de datos FaceForensics++ para probar la distinción entre señales de video reales y manipuladas en el espacio latente. En los experimentos, los modelos de reducción de dimensionalidad fueron evaluados utilizando el DBI, MSE, y CE. En el Experimento 1, el modelo AE demostró el mejor rendimiento en términos de MSE, con un valor de 0.1863, mientras que el modelo UMAP supervisado destacó en términos de DBI, logrando un valor de 8.8564. El modelo FCNN registró una CE de 0.8564. En el Experimento 2, el modelo UMAP paramétrico mostró el mejor rendimiento con un MSE de 0.1546 en la prueba final. UMAP supervisado logró un DBI de 1.7028 en la prueba. En términos de CE, el modelo FCNN tuvo un valor de 0.0726 en el conjunto de prueba. En el Experimento 3, el modelo AE logró el mejor rendimiento en términos de MSE, con un valor final de prueba de 0.0025 y el modelo UMAP supervisado logró un DBI de 5.9684 en la prueba final. En términos de CE, el modelo FCNN registró un valor final de prueba de 0.6618.
Los experimentos realizados en este estudio subrayan la eficacia de los algoritmos de MnLparagenerar representaciones visualizables a partir de entradas de datos de alta dimensionalidad. El análisis de señales de PPG dentro de estas representaciones de baja dimensionalidad revela que, dado una selección adecuada de hiperparámetros, los métodos propuestos extraen efectivamente características intrínsecas, reteniendo la periodicidad y las propiedades morfológicas de las señales de entrada.
–ABSTRACT–
Physiological signals are inherently complex yet serve as a critical source of clinical knowledge. Integrating this data into Artificial Intelligence (AI) systems has shown promising capabilities in complementing conventional clinical practice. Nonetheless, the extent of applicability of these systems may be limited by the lack of transparency of the used algorithms. Cardiac physiology maintains a close relation with Photoplethysmography (PPG) as it is a source of physiological signals of the heart cycle which can be measured non-invasively providing clinically useful information. Traditional PPG uses skin contact for light-based signal measurement, which contrasts with Remote Photoplethysmography (rPPG), capturing signals remotely through video recordings. The objective of this work is to evaluate if PPG signals in various application scenarios can be effectively represented in low-dimensional latent spaces using diverse Manifold Learning (MnL) algorithms, and to analyze the extracted features and their applications.
Datasets used here include the Wrist PPG Dataset, BIDMC PPG and Respiration Dataset, UBFC-RPPG Video dataset, and FaceForensics++ dataset, covering various conditions from clinical to daily-life scenarios. Additionally, a novel video transformer architecture, PhysFormer, is introduced for extracting rPPG signals from the FaceForensics++ dataset. Preprocessing steps such as signal detrending, low-pass filtering, resampling, Z-score normalization, and buffering are used to enhance data quality and homogeneity between datasets, preparing them for MnL algorithms processing. MnL techniques are used to process the PPG and captured rPPG signals. The input signals are projected into visualizable latent space using a collection of dimensionality reduction methods: Unsupervised Uniform Manifold Approximation and Projection (UMAP), Supervised UMAP, Parametric UMAP, Autoencoder (AE), Fully Connected Neural Network (FCNN), and Kernel Autoencoder (KAE). The optimal hyperparameters of each algorithm are searched using a 5-fold cross-validation strategy.
Experiments evaluate the proposed methods in four phases. First, a preliminary experiment using the Modified National Institute of Standards and Technology (MNIST) dataset is performed to verify the proper function of the methods and the crossvalidation strategy. Then PPG sources are used to get the latent representations and extract conclusions regarding the features conserved in this low-dimensional space. Third, rPPG and PPG signals are compared to study the similarities between the two modalities of signal acquisition. Finally, a proof-of-concept experiment of fake video detection is performed with rPPG, utilizing the FaceForensics++ dataset to test the distinction between real and manipulated video signals in the latent space. In the experiments, dimensionality reduction models were evaluated using the Davies–Bouldin iiiIndex (DBI), Mean Square Error (MSE), and Cross-entropy (CE). In Experiment 1, the AE model demonstrated the best performance in terms of MSE, with a value of 0.1863, while the Supervised UMAP model excelled in terms of DBI, achieving a value of 8.8564. The FCNN model recorded a CE of 0.8564. In Experiment 2, the Parametric UMAP model showed the best performance with an MSE of 0.1546 in the final test. Supervised UMAP achieved a DBI of 1.7028 in the test. In terms of CE, the FCNN model had a value of 0.0726 on the test set. In Experiment 3, the AE model achieved the best performance in terms of MSE, with a final test value of 0.0025 and the Supervised UMAP model achieved a DBI of 5.9684 in the final test. In terms of CE, the FCNN model recorded a final test value of 0.6618.
The experiments conducted in this study underline the efficacy of MnL algorithms in generating visualizable representations from high-dimensional data inputs. The analysis of PPG signals within these low-dimensional representations revealed that, given an adequate hyperparameter selection, the proposed methods effectively extract intrinsic features, retaining the periodicity and morphological properties of the input signals. Read More


