Des scientifiques construisent un système capable de générer des modèles d’IA pour la recherche en biologie
Des scientifiques construisent un système capable de générer des modèles d’IA pour la recherche en biologie

Des scientifiques construisent un système capable de générer des modèles d'IA pour la recherche en biologie
Résumé graphique. Crédit : Institut de technologie du Massachusetts

Est-il possible de créer des modèles d'apprentissage automatique sans expertise en apprentissage automatique ?

Jim Collins, professeur Termeer de génie médical et de sciences au département de génie biologique du MIT et responsable de la faculté des sciences de la vie à la clinique Abdul Latif Jameel pour l'apprentissage automatique en santé (clinique Jameel), ainsi qu'un certain nombre de collègues ont décidé de s'attaquer à ce problème face à une énigme similaire. Un article en libre accès sur leur solution proposée, appelé BioAutoMATED, a été publié dans Systèmes cellulaires.

Le recrutement de chercheurs en apprentissage automatique peut être un processus long et coûteux pour les laboratoires de sciences et d'ingénierie. Même avec un expert en apprentissage automatique, la sélection du modèle approprié, le formatage de l'ensemble de données pour le modèle, puis son ajustement peuvent modifier considérablement les performances du modèle et demander beaucoup de travail.

"Dans votre projet d'apprentissage automatique, combien de temps consacrerez-vous généralement à la préparation et à la transformation des données ?" demande un cours Google 2022 sur les fondements de l'apprentissage automatique (ML). Les deux choix proposés sont soit "Moins de la moitié du temps du projet" ou "Plus de la moitié du temps du projet". Si vous devinez ce dernier, vous auriez raison. Google indique qu'il faut plus de 80 % du temps d'un projet pour formater les données, et cela ne tient même pas compte du temps nécessaire pour définir le problème en termes d'apprentissage automatique.

"Il faudrait plusieurs semaines d'efforts pour trouver le modèle approprié pour notre ensemble de données, et c'est une étape vraiment prohibitive pour beaucoup de gens qui veulent utiliser l'apprentissage automatique ou la biologie", déclare Jacqueline Valeri, doctorante en cinquième année. D. étudiant en génie biologique dans le laboratoire de Collins qui est le premier co-auteur de l'article.

BioAutoMATED est un système d'apprentissage automatique qui peut sélectionner et créer un modèle approprié pour un ensemble de données donné et même prendre en charge la tâche laborieuse de prétraitement des données, réduisant un processus de plusieurs mois à quelques heures seulement. Les systèmes d'apprentissage automatique automatisé (AutoML) sont encore à un stade de développement relativement naissant, avec une utilisation actuelle principalement axée sur la reconnaissance d'images et de texte, mais largement inutilisée dans les sous-domaines de la biologie, souligne le premier co-auteur et post-doctorant de la Jameel Clinic, Luis Soenksen Ph. .D.

"Le langage fondamental de la biologie est basé sur des séquences", explique Soenksen, qui a obtenu son doctorat au département de génie mécanique du MIT. "Les séquences biologiques telles que l'ADN, l'ARN, les protéines et les glycanes ont l'étonnante propriété informationnelle d'être intrinsèquement standardisées, comme un alphabet. De nombreux outils AutoML sont développés pour le texte, il était donc logique de l'étendre à [biological] séquences."

De plus, la plupart des outils AutoML ne peuvent explorer et créer que des types réduits de modèles. "Mais vous ne pouvez pas vraiment savoir dès le début d'un projet quel modèle sera le meilleur pour votre ensemble de données", explique Valeri. "En incorporant plusieurs outils sous un seul outil parapluie, nous permettons vraiment un espace de recherche beaucoup plus grand que n'importe quel outil AutoML individuel pourrait atteindre seul."

Le répertoire de modèles ML supervisés de BioAutoMATED comprend trois types : les modèles de classification binaires (divisant les données en deux classes), les modèles de classification multi-classes (divisant les données en plusieurs classes) et les modèles de régression (ajustant des valeurs numériques continues ou mesurant la force des relations clés entre variables). BioAutoMATED est même en mesure d'aider à déterminer la quantité de données nécessaires pour former correctement le modèle choisi.

"Notre outil explore des modèles mieux adaptés aux ensembles de données biologiques plus petits et plus clairsemés ainsi qu'aux réseaux de neurones plus complexes", explique Valeri. C'est un avantage pour les groupes de recherche disposant de nouvelles données qui peuvent ou non convenir à un problème d'apprentissage automatique.

« Mener des expériences nouvelles et réussies à l'intersection de la biologie et de l'apprentissage automatique peut coûter très cher », explique Soenksen. "Actuellement, les laboratoires centrés sur la biologie doivent investir dans une infrastructure numérique importante et des ressources humaines formées à l'IA-ML avant même de pouvoir voir si leurs idées sont sur le point de se concrétiser. Nous voulons réduire ces obstacles pour les experts du domaine en biologie."

Avec BioAutoMATED, les chercheurs ont la liberté de mener des expériences initiales pour évaluer s'il vaut la peine d'engager un expert en apprentissage automatique pour construire un modèle différent pour une expérimentation plus poussée.

Le code open-source est accessible au public et, soulignent les chercheurs, il est facile à exécuter. "Ce que nous aimerions voir, c'est que les gens prennent notre code, l'améliorent et collaborent avec des communautés plus larges pour en faire un outil pour tous", déclare Soenksen. "Nous voulons amorcer la communauté de la recherche biologique et générer une prise de conscience liée aux techniques AutoML, en tant que voie sérieusement utile qui pourrait fusionner une pratique biologique rigoureuse avec une pratique AI-ML au rythme rapide mieux qu'elle ne l'est aujourd'hui."

Plus d'information: Jacqueline A. Valeri et al, BioAutoMATED : un outil d'apprentissage automatique de bout en bout pour l'explication et la conception de séquences biologiques, Systèmes cellulaires (2023). DOI : 10.1016/j.cels.2023.05.007

Fourni par le Massachusetts Institute of Technology

Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche, de l'innovation et de l'enseignement au MIT.

Citation: Des scientifiques construisent un système capable de générer des modèles d'IA pour la recherche en biologie (2023, 7 juillet) récupéré le 8 juillet 2023 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation loyale à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans l'autorisation écrite. Le contenu est fourni seulement pour information.




Source

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top