Utiliser l'IA pour créer des protéines au-delà de la nature

Par Mark Miller

L’apprentissage automatique et d’autres outils d’intelligence artificielle (IA) ont déjà été utilisés dans la recherche sur les protéines pour prédire les structures des protéines naturelles. Aujourd’hui, les biochimistes utilisent l’IA pour aller au-delà des modèles naturels et créer des protéines qui n’ont jamais existé auparavant. Comment l’IA reproduit-elle les processus naturels pour aider à construire des protéines à partir de zéro, et quelles sont leurs applications possibles?

Un modèle de texte comme ChatGPT

Selon l’article "Proteins Never Seen in Nature Are Designed Using AI to Address Biomedical and Industrial Problems Unsolved by Evolution" par Michael Eisenstein dans la revue Scientific American, les modèles génératifs d'IA basés sur le langage, comme celui utilisé par ChatGPT, peuvent être adaptés pour générer de nouvelles séquences et structures de protéines. En fait, un moyen efficace de comprendre les séquences de protéines est de les considérer comme du texte.

Dans ces applications, les algorithmes d’IA sont formés sur de grandes quantités d’informations biologiques, mais doivent également suivre des règles chimiques et biologiques – ou « grammaire » biologique, comme l’appelle Eisenstein. « Pour générer une phrase fluide ou un document, l'algorithme se doit d’apprendre les relations entre les différents types de mots. Mais il doit également apprendre des faits sur le monde pour créer un document cohérent et logique », comme le déclare Ali Madani, fondateur de la société Profluent, spécialisée dans la conception de protéines. Grâce à cette technologie de modélisation basée sur le texte, l'IA peut aider à développer de nouvelles protéines, de la même manière que ChatGPT produit du texte sur la base de la langue avec laquelle il a été formé.

Images et paysages

Si l'approche du modèle linguistique s'avère efficace, elle n'est pas la seule option. Un programme appelé Chroma utilise des modèles de diffusion, généralement utilisés dans les outils d'IA de génération d'images, capables de manipuler des données multidimensionnelles.

Faruck Morcos, PhD, professeur agrégé de sciences biologiques à l'Université du Texas à Dallas (UT Dallas), utilise une variante de cette stratégie d'imagerie. Selon une présentation publiée par l’UT Dallas, lui et son équipe génèrent des paysages en 3D qui leur permettent de visualiser de nouvelles protéines. « Notre nouveau cadre est comme une feuille de route », a déclaré Morcos. « Plutôt que d'analyser simplement les séquences protéiques existantes, nous étudions l'évolution des protéines et construisons des cartes en tenant compte à la fois des protéines qui existent déjà et des séquences potentielles générées et tracées. »

« Pour les applications qui nous intéressent, comme le développement durable, la médecine, l'alimentation, la santé et la conception de matériaux, nous devrons aller au-delà de ce que la nature a fait. »
- Markus Buehler, PhD, Professeur d'ingénierie McAfee, Massachusetts Institute of Technology

La preuve par le pliage

L'un des principaux défis de la conception et de la fabrication de nouvelles protéines est la capacité de valider qu'elles fonctionneront comme des protéines naturelles et non comme de simples chaînes aléatoires de composés chimiques.

Une équipe de chercheurs de l'Université de Toronto teste ses protéines construites par l'IA à l'aide d'OmegaFold, une version du logiciel DeepMind AlphaFold 2. Grâce à ce système, ils ont pu confirmer que toute nouvelle séquence se pliait en une structure fonctionnelle. Cette validation est essentielle car le repliement traduit une chaîne de protéines en une structure tridimensionnelle et permet de déterminer si elle a la bonne configuration pour fonctionner. L’équipe a confirmé la viabilité de leurs structures en créant des versions physiques en laboratoire.

La puissance des protéines

Les nouvelles protéines pouvant être conçues pour des usages spécifiques, elles deviennent donc extrêmement prometteuses pour des applications biomédicales, industrielles et environnementales.

Un rapport du Massachusetts Institute of Technology (MIT) indique que les nouvelles protéines peuvent poser des problèmes dans les applications biomédicales en raison de propriétés qui ne sont pas entièrement comprises. Toutefois, elles présentent néanmoins un grand potentiel parce qu'elles peuvent être modélisées à partir de protéines naturelles existantes et adaptées pour répondre à des besoins spécifiques.

Dans le monde industriel, de nouvelles protéines peuvent être utilisées pour fabriquer des matériaux dotés de propriétés spécifiques de rigidité et de flexibilité pour remplacer les matériaux à base de pétrole ou de céramique, mais avec une empreinte carbone beaucoup plus faible. Les revêtements alimentaires qui permettent de conserver les produits frais plus longtemps et de les manger en toute sécurité sont une autre possibilité.

« Pour les applications qui nous intéressent, comme le développement durable, la médecine, l'alimentation, la santé et la conception de matériaux, nous devrons aller au-delà de ce que la nature a fait », a déclaré Markus Buehler, PhD, Professeur d'ingénierie McAfee au MIT.

Mark Miller est un rédacteur attitré de Thermo Fisher Scientific.

Using AI to Create Proteins from Beyond Nature
Reference