Aplicación de aprendizaje por transferencia para la predicción de tiempos de retención de metabolitos

Bookmark (0)
Please login to bookmark Close

La predicción de tiempos de retención (RT) en cromatografía líquida de alta resolución a través de métodos de aprendizaje automático es una aproximación en auge, fundamental para la identificación de metabolitos. Sin embargo, enfrenta una problemática de escasez de datos experimentales disponibles. Este trabajo investiga el empleo de redes neuronales profundas a través de una metodología de aprendizaje por transferencia no supervisado, basada en el preentrenamiento de autoencoders, con el objetivo de mejorar la predicción de los tiempos de retención de metabolitos en comparación con los métodos tradicionales de aprendizaje automático. El objetivo principal fue evaluar si el preentrenamiento de autoencoders mediante representaciones moleculares permitía la posterior construcción de modelos de predicción de RT con mejor rendimiento que aquellos no preentrenados.
Para ello, se entrenaron múltiples autoencoders mediante una labor de reconstrucción de representaciones moleculares (fingerprints y descriptores) de compuestos de la base de datos RepoRT. Se seleccionaron los autoencoders más eficaces en términos de calidad de reconstrucción y se transfirieron sus representaciones latentes como entrada a redes neuronales supervisadas encargadas de la predicción de RT. Se crearon modelos preentrenados con fingerprints, descriptores, y ambos a la vez. El rendimiento de estas redes con preentrenamiento se comparó con el de modelos equivalentes entrenados desde cero. Adicionalmente, se evaluó la calidad de diversas arquitecturas de las redes neuronales acopladas al espacio latente.
Los resultados mostraron que los autoencoders lograron reconstruir los datos moleculares con muy alta fidelidad, lo que da a entender que eran capaces de capturar las características relevantes de las moléculas. Sin embargo, en la tarea de predicción de RT, las redes preentrenadas ofrecieron peores resultados que las no preentrenadas. Solo al integrar las dos modalidades de datos (fingerprints y descriptores) se observó una eficacia equivalente. La discrepancia entre la alta eficacia lograda en el preentrenamiento de los autoencoders y los modestos resultados en la predicción de tiempos de retención podría sugerir que tanto la escasez de datos disponibles en metabolómica como la ausencia de un proceso de optimización de hiperparámetros han influido en el rendimiento de la aproximación basada en aprendizaje por transferencia no supervisado.
ABSTRACT
Prediction of retention time (RT) in high-performance liquid chromatography using machine learning methods is an emerging approach, key for metabolite identification. However, it faces significant challenges due to the scarcity of available experimental data. This project investigates the use of deep neural networks through an unsupervised transfer learning methodology, based on the pretraining of autoencoders, with the goal of improving the prediction of metabolite retention times compared to traditional machine learning methods. The main objective was to assess whether pretraining autoencoders on molecular representations would enable the subsequent construction of RT prediction models with better performance than those built from scratch.
To this end, multiple autoencoders were trained to reconstruct molecular representations (fingerprints and descriptors) of compounds from the RepoRT database. The most effective autoencoders, in terms of reconstruction quality, were selected, and their latent representations were transferred as inputs to supervised neural networks tasked with RT prediction. Pretrained models were created using fingerprints, descriptors, and both types of molecular representations combined. The performance of these pretrained networks was compared with that of equivalent models trained from scratch. Additionally, the quality of various neural network architectures coupled to the latent space was evaluated.
The results showed that the autoencoders successfully reconstructed the molecular data with very high fidelity, suggesting that they were able to capture relevant molecular features. However, in the RT prediction task, the pretrained networks performed worse than the non-pretrained models. Only when integrating both data modalities (fingerprints and descriptors) was comparable performance observed. The discrepancy between the high efficacy achieved during the autoencoder pretraining and the modest results in retention time prediction may suggest that both the limited amount of available metabolomics data and the absence of a hyperparameter optimization process have influenced the performance of the unsupervised transfer learning approach.

​La predicción de tiempos de retención (RT) en cromatografía líquida de alta resolución a través de métodos de aprendizaje automático es una aproximación en auge, fundamental para la identificación de metabolitos. Sin embargo, enfrenta una problemática de escasez de datos experimentales disponibles. Este trabajo investiga el empleo de redes neuronales profundas a través de una metodología de aprendizaje por transferencia no supervisado, basada en el preentrenamiento de autoencoders, con el objetivo de mejorar la predicción de los tiempos de retención de metabolitos en comparación con los métodos tradicionales de aprendizaje automático. El objetivo principal fue evaluar si el preentrenamiento de autoencoders mediante representaciones moleculares permitía la posterior construcción de modelos de predicción de RT con mejor rendimiento que aquellos no preentrenados.
Para ello, se entrenaron múltiples autoencoders mediante una labor de reconstrucción de representaciones moleculares (fingerprints y descriptores) de compuestos de la base de datos RepoRT. Se seleccionaron los autoencoders más eficaces en términos de calidad de reconstrucción y se transfirieron sus representaciones latentes como entrada a redes neuronales supervisadas encargadas de la predicción de RT. Se crearon modelos preentrenados con fingerprints, descriptores, y ambos a la vez. El rendimiento de estas redes con preentrenamiento se comparó con el de modelos equivalentes entrenados desde cero. Adicionalmente, se evaluó la calidad de diversas arquitecturas de las redes neuronales acopladas al espacio latente.
Los resultados mostraron que los autoencoders lograron reconstruir los datos moleculares con muy alta fidelidad, lo que da a entender que eran capaces de capturar las características relevantes de las moléculas. Sin embargo, en la tarea de predicción de RT, las redes preentrenadas ofrecieron peores resultados que las no preentrenadas. Solo al integrar las dos modalidades de datos (fingerprints y descriptores) se observó una eficacia equivalente. La discrepancia entre la alta eficacia lograda en el preentrenamiento de los autoencoders y los modestos resultados en la predicción de tiempos de retención podría sugerir que tanto la escasez de datos disponibles en metabolómica como la ausencia de un proceso de optimización de hiperparámetros han influido en el rendimiento de la aproximación basada en aprendizaje por transferencia no supervisado.
ABSTRACT
Prediction of retention time (RT) in high-performance liquid chromatography using machine learning methods is an emerging approach, key for metabolite identification. However, it faces significant challenges due to the scarcity of available experimental data. This project investigates the use of deep neural networks through an unsupervised transfer learning methodology, based on the pretraining of autoencoders, with the goal of improving the prediction of metabolite retention times compared to traditional machine learning methods. The main objective was to assess whether pretraining autoencoders on molecular representations would enable the subsequent construction of RT prediction models with better performance than those built from scratch.
To this end, multiple autoencoders were trained to reconstruct molecular representations (fingerprints and descriptors) of compounds from the RepoRT database. The most effective autoencoders, in terms of reconstruction quality, were selected, and their latent representations were transferred as inputs to supervised neural networks tasked with RT prediction. Pretrained models were created using fingerprints, descriptors, and both types of molecular representations combined. The performance of these pretrained networks was compared with that of equivalent models trained from scratch. Additionally, the quality of various neural network architectures coupled to the latent space was evaluated.
The results showed that the autoencoders successfully reconstructed the molecular data with very high fidelity, suggesting that they were able to capture relevant molecular features. However, in the RT prediction task, the pretrained networks performed worse than the non-pretrained models. Only when integrating both data modalities (fingerprints and descriptors) was comparable performance observed. The discrepancy between the high efficacy achieved during the autoencoder pretraining and the modest results in retention time prediction may suggest that both the limited amount of available metabolomics data and the absence of a hyperparameter optimization process have influenced the performance of the unsupervised transfer learning approach. Read More