Permettre à l’apprentissage automatique de poser des questions peut le rendre plus intelligent
Permettre à l’apprentissage automatique de poser des questions peut le rendre plus intelligent

Permettre à l'apprentissage automatique de poser des questions peut le rendre plus intelligent
Crédit : NicoElNino / Shutterstock

Les ingénieurs biomédicaux de l'Université Duke ont démontré une nouvelle méthode pour améliorer considérablement l'efficacité des modèles d'apprentissage automatique à la recherche de nouvelles thérapies moléculaires en utilisant seulement une fraction des données disponibles. En travaillant avec un algorithme qui identifie activement les lacunes dans les ensembles de données, les chercheurs peuvent, dans certains cas, plus que doubler leur précision.

Cette nouvelle approche pourrait permettre aux scientifiques d'identifier et de classer plus facilement des molécules présentant des caractéristiques qui pourraient être utiles pour le développement de nouveaux candidats-médicaments et d'autres matériaux.

Ce travail est paru dans la revue Découverte numérique publié par la Royal Society of Chemistry le 23 juin.

Les algorithmes d'apprentissage automatique sont de plus en plus utilisés pour identifier et prédire les propriétés de petites molécules telles que les candidats-médicaments et d'autres composés. Bien qu'il y ait eu des progrès significatifs dans la puissance de calcul et les algorithmes d'apprentissage automatique, leurs capacités sont actuellement limitées par les ensembles de données existants utilisés pour les former, qui sont loin d'être parfaits.

L'un des principaux problèmes concerne le biais dans les données. Cela se produit lorsqu'il existe un nombre important de points de données qui présentent une propriété bien plus qu'une autre, comme la capacité potentielle d'une molécule à inhiber une protéine spécifique ou des caractéristiques de sa structure.

"C'est comme si vous entraîniez un algorithme pour distinguer les images de chiens et de chats, mais que vous lui donniez un milliard de photos de chiens à partir desquelles apprendre et seulement une centaine de photos de chats", a expliqué Daniel Reker, professeur adjoint de génie biomédical à Duke University. . "L'algorithme deviendra si bon pour identifier les chiens que tout commencera à ressembler à un chien, et il oubliera tout le reste du monde."

Il s'agit d'un problème particulièrement problématique pour la découverte et le développement de médicaments, où les scientifiques traitent souvent des ensembles de données où plus de 99 % des composés testés sont « inefficaces », et seule une petite fraction des molécules est étiquetée comme potentiellement utile.

Pour contrer ce problème, les chercheurs utilisent un processus connu sous le nom de sous-échantillonnage de données, où leur algorithme apprend à partir d'un sous-ensemble petit mais (espérons-le) représentatif des données. Bien que ce processus puisse éliminer les biais en donnant au modèle un nombre égal d'exemples à partir desquels apprendre, il peut également supprimer des points de données clés et avoir un impact négatif sur la précision globale d'un algorithme. Pour compenser, les chercheurs ont développé des centaines de techniques de sous-échantillonnage pour limiter la quantité d'informations perdues.

Mais Reker et ses collaborateurs voulaient explorer si une technique connue sous le nom d'apprentissage automatique actif pouvait résoudre ce problème de longue date.

"Avec l'apprentissage automatique actif, l'algorithme est essentiellement capable de poser des questions ou de demander plus d'informations s'il est confus ou détecte une lacune dans les données, plutôt que de les parcourir passivement", a déclaré Reker. "Cela rend les modèles d'apprentissage actif très efficaces pour prédire les performances."

En règle générale, Reker et d'autres chercheurs appliquent des algorithmes d'apprentissage actif pour générer de nouvelles données, par exemple pour identifier de nouveaux médicaments, mais Reker et son équipe ont voulu explorer ce qui se passe si l'algorithme est lâché sur des ensembles de données existants. Alors que cette application de sous-échantillonnage de l'apprentissage automatique actif avait été explorée dans d'autres recherches, Reker et son équipe ont été les premiers à tester l'algorithme sur la biologie moléculaire et le développement de médicaments.

Pour tester l'efficacité de leur approche de sous-échantillonnage actif, l'équipe a compilé des ensembles de données de molécules présentant différentes caractéristiques, notamment des molécules susceptibles de traverser la barrière hémato-encéphalique, des molécules susceptibles d'inhiber une protéine associée à la maladie d'Alzheimer et des composés dont il a été démontré qu'ils inhibent réplication du VIH. Ils ont ensuite testé leur algorithme d'apprentissage actif contre des modèles qui ont appris à partir de l'ensemble de données complet et contre 16 stratégies de sous-échantillonnage de pointe.

L'équipe a montré que le sous-échantillonnage actif était capable d'identifier et de prédire les caractéristiques moléculaires avec plus de précision que chacune des stratégies de sous-échantillonnage standard et, surtout, était jusqu'à 139 % plus efficace que l'algorithme qui s'entraînait sur l'ensemble de données complet dans certains cas. Leur modèle était également capable de s'adapter avec précision aux erreurs dans les données, ce qui indique qu'il pourrait être particulièrement utile pour les ensembles de données de faible qualité.

Mais le plus surprenant, c'est que l'équipe a découvert que la quantité idéale de données à utiliser était beaucoup plus faible que prévu, ne nécessitant dans certains cas que 10 % des données disponibles.

"Il y a un point où le modèle de sous-échantillonnage actif collecte toutes les informations dont il a besoin, et si vous ajoutez plus de données, cela nuit aux performances", a expliqué Reker. "Ce problème nous intéressait particulièrement, car il laisse entendre qu'il existe un point d'inflexion où plus d'informations ne sont plus utiles, même dans un sous-échantillon."

Alors que Reker et son équipe espèrent examiner ce point d'inflexion dans des travaux futurs, ils prévoient également d'utiliser cette nouvelle approche pour identifier de nouvelles molécules pour des cibles thérapeutiques potentielles. Parce que l'apprentissage automatique actif devient populaire dans de nombreux domaines de recherche différents, l'équipe est optimiste que son travail aidera les scientifiques à mieux comprendre cet algorithme et sa robustesse aux erreurs dans les données.

"Non seulement cette approche améliore les performances de l'apprentissage automatique, mais elle peut également réduire les besoins et les coûts de stockage des données, car elle fonctionne avec un ensemble de données plus raffiné", a déclaré Reker. "Cela rend l'apprentissage automatique plus reproductible, accessible et puissant pour tout le monde."

Plus d'information: Yujing Wen et al, Améliorer l'apprentissage automatique moléculaire grâce au sous-échantillonnage adaptatif avec apprentissage actif, Découverte numérique (2023). DOI : 10.1039/D3DD00037K

Fourni par Duke University

Citation: Permettre à l'apprentissage automatique de poser des questions peut le rendre plus intelligent (2023, 27 juillet) récupéré le 28 juillet 2023 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation loyale à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans l'autorisation écrite. Le contenu est fourni seulement pour information.




Source

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top