La IA de DeepMind para la estructura de las proteínas está llegando a las masas
Los sistemas de aprendizaje automático de la empresa y de un grupo académico rival ahora son de código abierto y de libre acceso.
Es una predicción de la estructura de proteínas para la gente. El software que determina con precisión la forma tridimensional de las proteínas estará disponible para los científicos.
El 15 de julio, la empresa con sede en Londres DeepMind lanzó una versión de código abierto de su red neuronal de aprendizaje profundo AlphaFold 2. La red dominó una competencia de predicción de estructura de proteínas el año pasado.
Mientras tanto, un equipo académico ha desarrollado su propia herramienta de predicción de proteínas inspirada en AlphaFold 2, que ya está ganando popularidad entre los científicos. Ese sistema, llamado RoseTTaFold, funciona casi tan bien como AlphaFold 2.
La naturaleza de código abierto de las herramientas significa que la comunidad científica debería poder aprovechar los avances para crear un software aún más poderoso y útil, dice Jinbo Xu, biólogo computacional de la Universidad de Chicago en Illinois.
Estructura para funcionar
Las proteínas están formadas por cadenas de aminoácidos que, cuando se pliegan en formas tridimensionales, determinan la función de esas proteínas en las células. Durante décadas, los investigadores han utilizado técnicas experimentales como la cristalografía de rayos X y la microscopía crioelectrónica para determinar las estructuras de las proteínas. Pero tales métodos pueden llevar mucho tiempo y ser costosos, y algunas proteínas no son susceptibles de tal análisis.
DeepMind envió ondas de choque a través del mundo científico el año pasado, cuando demostró que su software podía predecir con precisión la estructura de muchas proteínas utilizando solo la secuencia de las mismas (que está determinada por el ADN). Los investigadores habían estado trabajando en este desafío durante décadas, y AlphaFold 2 se desempeñó tan bien en un ejercicio bienal de predicción de proteínas llamado CASP que el cofundador de la competencia declaró que “en cierto sentido, el problema está resuelto”.
DeepMind, que tiene la reputación de ser cautelosa con su trabajo, según describió AlphaFold 2 en una breve presentación en CASP el 1 de diciembre, prometió publicar un artículo en el que se describiera la red con más detalle y poner el software a disposición de los investigadores, pero no dijo mucho más.
“Entre los académicos, hubo bastante pesimismo”, dice David Baker, bioquímico de la Universidad de Washington en Seattle, cuyo equipo desarrolló RoseTTaFold. «Si alguien ha resuelto el problema en el que estás trabajando pero no revela cómo lo hizo, ¿Cómo continúas trabajando con él?»
“Sentí que perdí mi trabajo en ese momento”, dice el químico computacional Minkyung Baek, miembro del equipo de Baker. Pero la presentación de DeepMind también estimuló nuevas ideas que Baek estaba ansioso por explorar. Así que ella, Baker y sus colegas comenzaron a pensar en formas de replicar el éxito de AlphaFold 2.
Identificaron varios avances clave, incluida la forma en que la red utiliza información sobre proteínas que están relacionadas evolutivamente con los objetivos que los investigadores están tratando de predecir, y cómo las estructuras predichas de una parte de una proteína pueden influir en cómo la red maneja las secuencias correspondientes a otras partes de la proteína, la molécula.
RoseTTaFold no solo se desempeñó casi tan bien como AlphaFold 2, sino también mucho mejor que otras entradas CASP (incluidas algunas del laboratorio Baker). Aún no está claro por qué no puede igualar a AlphaFold 2, pero una probabilidad es la experiencia de DeepMind, dice Baek. «No tenemos ingenieros de aprendizaje profundo en nuestro laboratorio». Xu está impresionado por los esfuerzos de Baek, Baker y sus colaboradores, y sospecha que el éxito de DeepMind se debió a su acceso a la experiencia en ingeniería y una potencia informática superior.
Estructuras rápidas
DeepMind también ha optimizado AlphaFold 2. Mientras que la red tomó días de tiempo de computación para generar estructuras para algunas entradas a CASP, la versión de código abierto es aproximadamente 16 veces más rápida, dice el investigador principal de AlphaFold, John Jumper. Puede generar estructuras en minutos u horas, dependiendo del tamaño de la proteína. Eso es comparable a la velocidad del RoseTTaFold.
Aunque el código fuente de AlphaFold 2 está disponible gratuitamente, incluso para entidades comerciales, es posible que aún no sea particularmente útil para investigadores sin experiencia técnica. DeepMind ha colaborado con investigadores y organizaciones selectos, incluida la iniciativa sin fines de lucro Drugs for Neglected Diseases con sede en Ginebra, Suiza, para predecir objetivos específicos, pero espera ampliar el acceso, dice Pushmeet Kohli, jefe de inteligencia artificial para la ciencia en DeepMind. «Hay mucho más que queremos hacer en este espacio».
Además de hacer que el código para RoseTTaFold esté disponible gratuitamente, el equipo de Baker ha configurado un servidor en el que los investigadores pueden conectar una secuencia de proteínas y obtener una estructura predicha. Desde su lanzamiento el mes pasado, el servidor ha predicho la estructura de más de 5,000 proteínas enviadas por alrededor de 500 personas, dice Baker.
Con el código ahora disponible gratuitamente para RoseTTaFold y AlphaFold 2, los investigadores podrán aprovechar ambos avances, dice Xu, y tal vez hacer que las técnicas sean compatibles con las estructuras de proteínas que AlphaFold 2 hasta ahora ha luchado por predecir. Dos áreas de gran interés son la predicción de la estructura de complejos de múltiples proteínas que interactúan y la aplicación del software al diseño de nuevas proteínas.