Científicos ex Meta presentan modelo gigante de diseño de proteínas con IA

Creación de nuevas moléculas fluorescentes con inteligencia artificial

Modelo molecular de la proteína fluorescente verde brillante StayGold de Cytaeis uchidae.

Un modelo estructural de la proteína fluorescente verde, un caballo de batalla de la biotecnología.Crédito: Laguna Design/Science Photo Library

Un modelo de inteligencia artificial (IA) que habla el lenguaje de las proteínas, uno de los más grandes desarrollados para la biología, se ha utilizado para crear nuevas moléculas fluorescentes.

La demostración de prueba de concepto fue anunciada este mes por EvolutionaryScale en la ciudad de Nueva York, junto con 142 millones de dólares en nuevos fondos para aplicar su modelo al desarrollo de medicamentos, sostenibilidad y otros fines. La compañía, lanzada por científicos que trabajaron anteriormente en la gigante tecnológica Meta, es la última incorporación en un campo cada vez más concurrido que está aplicando modelos avanzados de aprendizaje automático entrenados en lenguaje e imágenes a datos biológicos.

“Queremos construir herramientas que puedan hacer la biología programable”, dice Alex Rives, el científico jefe de la empresa, quien formó parte de los esfuerzos de Meta para aplicar la IA a datos biológicos.

La herramienta de IA de EvolutionaryScale, llamada ESM3, es lo que se conoce como un modelo de lenguaje de proteínas. Fue entrenada en más de 2.700 millones de secuencias y estructuras de proteínas, así como información sobre las funciones de estas proteínas. El modelo puede utilizarse para crear proteínas según las especificaciones proporcionadas por los usuarios, similar al texto generado por chatbots como ChatGPT.

“Va a ser uno de los modelos de IA en biología al que todos están prestando atención”, dice Anthony Gitter, biólogo computacional de la Universidad de Wisconsin-Madison.

Brillando intensamente

Rives y sus colegas trabajaron en iteraciones anteriores del modelo ESM en Meta, pero se aventuraron por su cuenta el año pasado, después de que Meta finalizara su trabajo en esta área. Anteriormente habían utilizado el modelo ESM-2 para crear una base de datos de 600 millones de estructuras de proteínas predichas disponibles gratuitamente. Otros equipos han utilizado versiones de ESM-1 para diseñar anticuerpos con mayor actividad contra patógenos como el SARS-CoV-2 y para reingenierar proteínas ‘anti-CRISPR’ para mejorar la eficiencia de las herramientas de edición genética.

Este año, otra compañía de IA en biología, Profluent en Berkeley, California, utilizó su propio modelo de lenguaje de proteínas para crear nuevas proteínas de edición genética inspiradas en CRISPR, y puso una de esas moléculas en uso gratuito.

Para demostrar su último modelo, el equipo de Rives se propuso renovar otra herramienta importante de la biotecnología: la proteína fluorescente verde (GFP), que absorbe la luz azul y brilla en verde. Los investigadores aislaron GFP en la década de 1960, de la medusa bioluminiscente Aequorea victoria. Trabajos posteriores, que junto al descubrimiento fueron reconocidos con un premio Nobel, demostraron cómo GFP podía etiquetar otras proteínas vistas bajo un microscopio, explicaron la base molecular de su fluorescencia y desarrollaron versiones sintéticas de la proteína que brillaban mucho más intensamente y en diferentes colores.

Desde entonces, los investigadores han identificado otras proteínas fluorescentes de formas similares, todas compartiendo un núcleo ‘cromóforo’ que absorbe y emite luz rodeado por una estructura en forma de barril. El equipo de Rives le pidió a ESM3 que creara ejemplos de proteínas similares a GFP que contuvieran un conjunto de aminoácidos clave encontrados en el cromóforo de GFP.

Los investigadores sintetizaron 88 de los diseños más prometedores y midieron su capacidad para fluorescer. La mayoría resultaron ser no efectivos, pero un diseño, diferente a las proteínas fluorescentes conocidas, brillaba débilmente: aproximadamente 50 veces más débil que las formas naturales de GFP. Utilizando la secuencia de aminoácidos de esta molécula como punto de partida, los investigadores encargaron a ESM3 mejorar su trabajo. Cuando los investigadores hicieron alrededor de 100 de los diseños resultantes, varios brillaban tanto como las GFP naturales, que aún son significativamente más tenues que las variantes diseñadas en laboratorio.

Una de las proteínas diseñadas por ESM3 más brillantes, denominada esmGFP, se predice que tiene una estructura similar a las proteínas fluorescentes naturales. Sin embargo, su secuencia de aminoácidos es significativamente diferente, coincidiendo con menos del 60% de la secuencia de la proteína fluorescente más cercanamente relacionada en su conjunto de datos de entrenamiento. En un preprint publicado en el servidor bioRxiv, Rives y sus colegas señalan que, según las tasas naturales de mutación, este nivel de diferencia de secuencia equivale a «más de 500 millones de años de evolución”.

Sin embargo, Gitter se preocupa de que esta comparación sea una forma poco útil, y potencialmente engañosa, de describir el producto de un modelo de IA de vanguardia. «Suena alarmante cuando pensamos en la IA y la aceleración de la evolución», dice. «Creo que exagerar lo que hace un modelo puede perjudicar al campo y ser peligroso para el público.»

Rives ve la generación de nuevas proteínas por parte de ESM3 mediante la iteración de varias secuencias como análogo a la evolución. «Creemos que la perspectiva de lo que le llevaría a la naturaleza generar algo así es interesante,» añade.

Umbral de riesgo

ESM-3 es uno de los primeros modelos de IA biológica que requiere la suficiente potencia informática durante su entrenamiento para que los desarrolladores notifiquen al gobierno de EE. UU. y informen sobre las medidas de mitigación de riesgos, según una orden ejecutiva presidencial de 2023. EvolutionaryScale dice que ya ha estado en contacto con la Oficina de Política Científica y Tecnológica de los Estados Unidos.

La versión de ESM3 que superó ese umbral, que comprende casi 100 mil millones de parámetros, o variables que el modelo utiliza para representar las relaciones entre secuencias, no está disponible públicamente. Para una versión más pequeña de código abierto, se excluyeron ciertas secuencias, como las de virus y una lista gubernamental de patógenos y toxinas preocupantes, del entrenamiento. Tampoco se puede hacer que ESM3-open, que los científicos de cualquier parte pueden descargar y ejecutar de forma independiente, genere dichas proteínas.

Martin Pacesa, un biólogo estructural del Instituto Federal de Tecnología de Lausana, está emocionado por comenzar a trabajar con ESM3. Es uno de los primeros modelos biológicos que permite a los investigadores especificar diseños usando descripciones en lenguaje natural de sus propiedades y funciones, señala, y está ansioso por ver cómo funcionan experimentalmente estas y otras características.

Pacesa está impresionado de que EvolutionaryScale haya lanzado una versión de código abierto de ESM3, y una descripción clara de cómo se entrenó la versión más grande. Pero el modelo más grande requeriría inmensos recursos informáticos para ser desarrollado de forma independiente, dice. «Ningún laboratorio académico podrá replicarlo.»

Rives está ansioso por aplicar ESM-3 a otros diseños. Pacesa, quien formó parte del equipo que utilizó un modelo de lenguaje de proteínas diferente para crear nuevas proteínas de CRISPR, dice que será interesante ver cómo se desempeña ESM-3 en esto. Rives visualiza aplicaciones en sostenibilidad – un video en su página web muestra el diseño de enzimas que comen plástico – y en el desarrollo de anticuerpos y otros medicamentos basados en proteínas. «Realmente es un modelo en la vanguardia», dice.

Deja un comentario

Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.

ACEPTAR