Predicción de interacciones proteína-proteína basada en secuencia mediante modelos de aprendizaje profundo

Bookmark (0)
Please login to bookmark Close

Las proteínas son máquinas moleculares que realizan la mayoría de funciones dinámicas necesarias para la vida. En muchas ocasiones, no trabajan de forma aislada, sino que interactúan entre sí para ejercer su actividad biológica, dando lugar a una compleja red de interacciones proteína-proteína (PPI) en el organismo. El conocimiento de estas redes resulta esencial para entender los procesos celulares, tratar enfermedades y desarrollar fármacos. Sin embargo, los métodos experimentales disponibles presentan limitaciones en precisión, tiempo y coste, que restringen el descubrimiento masivo de PPI. Debido a esto, la predicción computacional es una opción atractiva para promover el avance en líneas de investigación y guiar el descubrimiento experimental. La predicción basada únicamente en la secuencia de las proteínas resulta especialmente interesante, ya que es la información más ampliamente disponible.
En los últimos años, el aprendizaje profundo ha impulsado avances extraordinarios en el análisis de proteínas, permitiendo establecer relaciones entre su secuencia, estructura y función que resultan muy costosas de determinar de forma experimental. Por ello, el aprendizaje profundo resulta una estrategia prometedora para la predicción de PPI basada en secuencia. Sin embargo, los métodos diseñados hasta el momento presentan rendimientos sobreestimados debido al uso de datasets con filtraciones de datos entre el conjunto de entrenamiento y validación. En ausencia de filtraciones, sus predicciones se vuelven azarosas, destacando la necesidad de continuar la investigación en esta área, poniendo especial cuidado en el diseño de los conjuntos de datos.
En este trabajo se han explorado ProtBERT, un modelo de lenguaje de proteínas, y AlphaFold3, el estado del arte en el modelado de estructura de complejos proteicos, para la predicción de PPI a partir de secuencia en ausencia de filtraciones de datos. Los resultados muestran que las representaciones internas de AlphaFold3 codifican información útil para la clasificación de pares de proteínas en interactores o no interactores. Una regresión logística aplicada sobre las representaciones individuales extraídas por AlphaFold3, fue suficiente para predecir interacciones proteínaproteína con gran precisión y sensibilidad (accuracy 0.840, precisión 0.842, sensibilidad 0.836). En contraposición, ProtBERT fue incapaz de extraer características relevantes. Los resultados muestran la importancia de utilizar modelos capaces de extraer información estructural a partir de la secuencia, como AlphaFold3, para lograr una predicción eficaz de las interacciones. Este trabajo inicia el camino para adaptar AlphaFold3 y otros modelos especializados en la generación de estructuras de complejos multiméricos, a la tarea de predicción de interacciones proteína-proteína.
–ABSTRACT–
Proteins are molecular machines that perform most of the dynamic functions necessary for life. In many cases, they do not work in isolation. Instead, they interact with each other to exert their biological activity, giving rise to a complex network of protein-protein interactions (PPI) in the organism. Knowledge of these networks is essential for understanding cellular processes, treating diseases and developing drugs. However, available experimental methods present limitations in accuracy, time and cost, which restrict the mass discovery of PPI. Because of this, computational prediction is an attractive option to promote progress in research and guide experimental discovery. Predictions based on protein sequence alone are particularly interesting, as this is the most widely available information.
In recent years, deep learning has driven extraordinary advances in protein analysis, making it possible to establish relationships between sequence, structure and function that are very costly to determine experimentally. Thus, deep learning is a promising strategy for sequence-based PPI prediction. However, the methods designed so far present overestimated performances due to the use of datasets with data leaks between training and validation. In absence of data leakage, their predictions become random, underpinning the necessity of continuing research in this field, paying especial attention to the design of datasets.
In this work ProtBERT, a protein language model, and AlphaFold3, the state of the art in protein complex structure modeling, have been explored for PPI prediction from sequence in absence of data leakage. The results show that the internal representations of AlphaFold3 encode useful information for the classification of protein pairs into interacting or non-interacting. A logistic regression applied on the individual representations extracted by AlphaFold3 was sufficient to predict protein-protein interactions with high precision and sensitivity (accuracy 0.840, precision 0.842, sensitivity 0.836). In contrast, ProtBERT was unable to extract relevant features. The results show the importance of using models capable of extracting structural information from sequence, such as AlphaFold3, for efficient prediction of interactions. This work initiates the path towards adapting AlphaFold3 and other sequence-to structure models of protein complexes for PPI prediction.

​Las proteínas son máquinas moleculares que realizan la mayoría de funciones dinámicas necesarias para la vida. En muchas ocasiones, no trabajan de forma aislada, sino que interactúan entre sí para ejercer su actividad biológica, dando lugar a una compleja red de interacciones proteína-proteína (PPI) en el organismo. El conocimiento de estas redes resulta esencial para entender los procesos celulares, tratar enfermedades y desarrollar fármacos. Sin embargo, los métodos experimentales disponibles presentan limitaciones en precisión, tiempo y coste, que restringen el descubrimiento masivo de PPI. Debido a esto, la predicción computacional es una opción atractiva para promover el avance en líneas de investigación y guiar el descubrimiento experimental. La predicción basada únicamente en la secuencia de las proteínas resulta especialmente interesante, ya que es la información más ampliamente disponible.
En los últimos años, el aprendizaje profundo ha impulsado avances extraordinarios en el análisis de proteínas, permitiendo establecer relaciones entre su secuencia, estructura y función que resultan muy costosas de determinar de forma experimental. Por ello, el aprendizaje profundo resulta una estrategia prometedora para la predicción de PPI basada en secuencia. Sin embargo, los métodos diseñados hasta el momento presentan rendimientos sobreestimados debido al uso de datasets con filtraciones de datos entre el conjunto de entrenamiento y validación. En ausencia de filtraciones, sus predicciones se vuelven azarosas, destacando la necesidad de continuar la investigación en esta área, poniendo especial cuidado en el diseño de los conjuntos de datos.
En este trabajo se han explorado ProtBERT, un modelo de lenguaje de proteínas, y AlphaFold3, el estado del arte en el modelado de estructura de complejos proteicos, para la predicción de PPI a partir de secuencia en ausencia de filtraciones de datos. Los resultados muestran que las representaciones internas de AlphaFold3 codifican información útil para la clasificación de pares de proteínas en interactores o no interactores. Una regresión logística aplicada sobre las representaciones individuales extraídas por AlphaFold3, fue suficiente para predecir interacciones proteínaproteína con gran precisión y sensibilidad (accuracy 0.840, precisión 0.842, sensibilidad 0.836). En contraposición, ProtBERT fue incapaz de extraer características relevantes. Los resultados muestran la importancia de utilizar modelos capaces de extraer información estructural a partir de la secuencia, como AlphaFold3, para lograr una predicción eficaz de las interacciones. Este trabajo inicia el camino para adaptar AlphaFold3 y otros modelos especializados en la generación de estructuras de complejos multiméricos, a la tarea de predicción de interacciones proteína-proteína.
–ABSTRACT–
Proteins are molecular machines that perform most of the dynamic functions necessary for life. In many cases, they do not work in isolation. Instead, they interact with each other to exert their biological activity, giving rise to a complex network of protein-protein interactions (PPI) in the organism. Knowledge of these networks is essential for understanding cellular processes, treating diseases and developing drugs. However, available experimental methods present limitations in accuracy, time and cost, which restrict the mass discovery of PPI. Because of this, computational prediction is an attractive option to promote progress in research and guide experimental discovery. Predictions based on protein sequence alone are particularly interesting, as this is the most widely available information.
In recent years, deep learning has driven extraordinary advances in protein analysis, making it possible to establish relationships between sequence, structure and function that are very costly to determine experimentally. Thus, deep learning is a promising strategy for sequence-based PPI prediction. However, the methods designed so far present overestimated performances due to the use of datasets with data leaks between training and validation. In absence of data leakage, their predictions become random, underpinning the necessity of continuing research in this field, paying especial attention to the design of datasets.
In this work ProtBERT, a protein language model, and AlphaFold3, the state of the art in protein complex structure modeling, have been explored for PPI prediction from sequence in absence of data leakage. The results show that the internal representations of AlphaFold3 encode useful information for the classification of protein pairs into interacting or non-interacting. A logistic regression applied on the individual representations extracted by AlphaFold3 was sufficient to predict protein-protein interactions with high precision and sensitivity (accuracy 0.840, precision 0.842, sensitivity 0.836). In contrast, ProtBERT was unable to extract relevant features. The results show the importance of using models capable of extracting structural information from sequence, such as AlphaFold3, for efficient prediction of interactions. This work initiates the path towards adapting AlphaFold3 and other sequence-to structure models of protein complexes for PPI prediction. Read More