Utilisation de l’intelligence artificielle pour pister les molécules

Ce nouvel outil d’identification des petites molécules présente de nombreux avantages pour le diagnostic, le développement de médicaments et la recherche fondamentale.

Un nouveau modèle d’apprentissage automatique – appelé machine learning en anglais – va aider les scientifiques à mieux identifier les petites molécules, ce qui aura des applications en médecine, pour le développement de nouveaux médicaments et en chimie environnementale. Mis au point par des chercheurs de l’Université d’Aalto en Finlande et de l’Université du Luxembourg, le modèle a été entraîné sur des données provenant de dizaines de laboratoires, devenant ainsi l’un des outils les plus précis en matière d’identification des petites molécules.

Des milliers de petites molécules différentes, appelées métabolites, transportent de l’énergie et transmettent des informations dans tout le corps humain. En raison de leur petite taille, ces métabolites sont difficiles à distinguer les uns des autres lors de l’analyse d’un échantillon de sang. Être capable d’identifier ces molécules est cependant important pour comprendre comment l’exercice physique, la nutrition, la consommation d’alcool et les troubles métaboliques affectent notre santé.

Les différents métabolites sont en général identifiés à l’aide d’une technique de séparation appelée chromatographie en phase liquide, suivie par une analyse via la spectrométrie de masse. Cela permet de séparer les molécules en fonction de leur masse et de leur temps de rétention. L’échantillon passe d’abord dans une colonne au sein de laquelle les métabolites circulent avec différents débits – on parle de temps de rétention – qui peuvent être mesurés. La spectrométrie de masse est ensuite utilisée pour affiner le processus d’identification en triant les métabolites en fonction de leur masse. Les chercheurs peuvent également décomposer les métabolites en plus petits morceaux pour analyser leur composition à l’aide d’une technique appelée spectrométrie de masse en tandem.

« Actuellement, même les meilleures méthodes ne permettent pas d’identifier plus de 40 % des molécules présentes dans les échantillons sans avoir à formuler des hypothèses préalables sur les molécules candidates, » explique le professeur Juho Rousu de l’Université d’Aalto.

Le groupe du Prof. Rousu vient de mettre au point un nouveau modèle d’apprentissage automatique permettant d’identifier les petites molécules. Ce modèle a été récemment publié dans la revue Nature Machine Intelligence.

« Ce nouveau modèle dont le code est open source va offrir à l’ensemble de la communauté scientifique une vision enrichie de ces petites molécules. Il va permettre de développer des méthodes pour identifier différents troubles métaboliques, comme le diabète ou même certains cancers, » explique Juho Rousu.

Cette nouvelle approche permet de contourner élégamment l’un des problèmes auxquels sont confrontées les méthodes conventionnelles. Comme les temps de rétention des molécules varient d’un laboratoire à l’autre, les données ne peuvent habituellement être comparées entre laboratoires. Eric Bach, doctorant à l’Université d’Aalto, a trouvé une alternative au cours de ses travaux de recherche qui a permis de résoudre ce problème.

« Nos recherches montrent que si les temps de rétention absolus peuvent varier, l’ordre de rétention reste par contre stable pour des mesures effectuées par différents laboratoires, » explique Eric Bach. « Cela nous a permis de fusionner pour la toute première fois toutes les données sur les métabolites disponibles en libre accès et de les utiliser pour entraîner notre modèle d’apprentissage automatique. »

Grâce à l’incorporation de données provenant de dizaines de laboratoires du monde entier, ce nouveau modèle est devenu suffisamment précis pour distinguer des molécules qui ne diffèrent entre elles que par la disposition de leurs atomes dans l’espace. Appelés stéréoisomères ou variantes stéréochimiques, ces molécules sont des images miroir l’une de l’autre. Jusqu’à présent, les outils d’identification n’étaient en mesure de les différencier et ce progrès devrait ouvrir de nouvelles voies dans de nombreux autres domaines, notamment pour le développement de futurs médicaments.

« Le fait que l’utilisation de la stéréochimie améliore les performances d’identification est une révélation pour tous les scientifiques impliqués dans la conception de méthodes visant à reconnaitre les différents métabolites, » déclare Emma Schymanski, professeur au Luxembourg Centre for Systems Biomedicine (LCSB) de l’Université du Luxembourg. « Cette nouvelle méthode pourrait également aider à identifier et pister les micropolluants dans l’environnement ou permettre de caractériser de nouveaux métabolites dans les cellules végétales. »

Référence : Eric Bach, Emma Schymanski and Juho Rousu, Joint structural annotation of small molecules using liquid chromatography retention order and tandem mass spectrometry data, Nature Machine Intelligence, December 2022. DOI:10.1038/s42256-022-00577-2

Image credits: Matti Ahlgren, Aalto University