El futuro de la bioinformática: software predictivo de proteínas basado en IA

Un ingeniero de la Universidad de Missouri ha obtenido financiamiento de la Fundación Nacional de Ciencias de Estados Unidos para desarrollar una herramienta revolucionaria que predice el funcionamiento de las proteínas en función de su secuencia de aminoácidos.

Este avance promete aplicaciones desde el desarrollo de cultivos resistentes a la sequía hasta el diseño de medicamentos avanzados.

De la secuencia a la estructura y función de las proteínas

Jianlin Cheng, profesor de Ingeniería Eléctrica e Informática, presentó una de sus más recientes creaciones, un software de código abierto que permita a los usuarios ingresar una secuencia de aminoácidos para predecir tanto la estructura tridimensional de la proteína como su función específica en una célula. Además, el sistema es capaz de identificar el sitio preciso de la proteína donde se lleva a cabo dicha función.

Las proteínas son fundamentales para la vida y su comprensión abre puertas a numerosas posibilidades. Por ejemplo, si se identifica una proteína que promueve el crecimiento tumoral en pacientes con cáncer, los científicos podrían diseñar fármacos que inhiban su actividad en el sitio específico, ralentizando o deteniendo el crecimiento del tumor.

El poder del modelo de transformador profundo

Cheng está utilizando un modelo de transformador profundo, similar al que impulsa a ChatGPT, para desarrollar su herramienta de predicción de proteínas. La secuencia de aminoácidos se considera el lenguaje de los sistemas biológicos, y el equipo está creando tres tipos de modelos de transformadores profundos: uno para secuencias unidimensionales, otro para análisis de interacciones proteicas en 2D y otro para estructuras tridimensionales que consideran sitios específicos de la proteína.

Esta iniciativa representa un hito más en la exitosa carrera de Cheng en la predicción de proteínas. En 2012, él y sus estudiantes demostraron por primera vez la superioridad del aprendizaje profundo en la predicción de estructuras proteicas. En el experimento CASP14 de 2020, Deep Mind presentó AlphaFold2, un método avanzado de aprendizaje profundo que logró una precisión sin precedentes en la predicción de estructuras proteicas. En CASP15 de 2022, el Grupo de investigación liderado por Cheng superó aún más la precisión de la predicción basada en AlphaFold2.

Cheng destaca la incorporación de los avances en estructura de proteínas y el uso de AlphaFold2 en este proyecto en particular. La metodología del modelo de lenguaje es novedosa en este campo y representa un área de investigación emocionante en la que Cheng y su equipo están dedicando muchos esfuerzos.