Les réseaux de neurones, un type de modèle d'apprentissage automatique, sont utilisés pour aider les humains à accomplir une grande variété de tâches, allant de la prédiction si le pointage de crédit d'une personne est suffisamment élevé pour être admissible à un prêt au diagnostic si un patient a une certaine maladie. Mais les chercheurs n'ont encore qu'une compréhension limitée du fonctionnement de ces modèles. La question de savoir si un modèle donné est optimal pour certaines tâches reste une question ouverte.
Les chercheurs du MIT ont trouvé des réponses. Ils ont effectué une analyse des réseaux de neurones et ont prouvé qu'ils pouvaient être conçus de manière à être "optimaux", ce qui signifie qu'ils minimisent la probabilité de classer par erreur les emprunteurs ou les patients dans la mauvaise catégorie lorsque les réseaux reçoivent beaucoup de données de formation étiquetées. Pour atteindre l'optimalité, ces réseaux doivent être construits avec une architecture spécifique.
Les chercheurs ont découvert que, dans certaines situations, les briques de base qui permettent à un réseau de neurones d'être optimal ne sont pas celles que les développeurs utilisent en pratique. Ces blocs de construction optimaux, dérivés de la nouvelle analyse, ne sont pas conventionnels et n'ont jamais été pris en compte auparavant, selon les chercheurs.
Dans un article publié cette semaine dans le Actes de l'Académie nationale des sciences, ils décrivent ces blocs de construction optimaux, appelés fonctions d'activation, et montrent comment ils peuvent être utilisés pour concevoir des réseaux de neurones qui atteignent de meilleures performances sur n'importe quel ensemble de données. Les résultats tiennent même lorsque les réseaux de neurones deviennent très importants. Ce travail pourrait aider les développeurs à sélectionner la bonne fonction d'activation, leur permettant de construire des réseaux de neurones qui classent les données avec plus de précision dans un large éventail de domaines d'application, explique l'auteur principal Caroline Uhler, professeur au Département de génie électrique et d'informatique (EECS) .
"Bien qu'il s'agisse de nouvelles fonctions d'activation qui n'ont jamais été utilisées auparavant, ce sont des fonctions simples que quelqu'un pourrait réellement implémenter pour un problème particulier. Ce travail montre vraiment l'importance d'avoir des preuves théoriques. Si vous recherchez une compréhension raisonnée de ces modèles, cela peut en fait vous conduire à de nouvelles fonctions d'activation auxquelles vous n'auriez jamais pensé autrement », explique Uhler, qui est également codirecteur du centre Eric et Wendy Schmidt au Broad Institute du MIT et de Harvard, et chercheur au laboratoire du MIT. for Information and Decision Systems (LIDS) et son Institute for Data, Systems and Society (IDSS).
Adityanarayanan Radhakrishnan, étudiant diplômé de l'EECS et boursier du Eric and Wendy Schmidt Center, et Mikhail Belkin, professeur au Halicioğlu Data Science Institute de l'Université de Californie à San Diego, se joignent à Uhler pour l'article.
Enquête d'activation
Un réseau de neurones est un type de modèle d'apprentissage automatique qui est vaguement basé sur le cerveau humain. De nombreuses couches de nœuds interconnectés, ou neurones, traitent les données. Les chercheurs forment un réseau pour accomplir une tâche en lui montrant des millions d'exemples à partir d'un ensemble de données.
Par exemple, un réseau qui a été formé pour classer les images en catégories, par exemple les chiens et les chats, reçoit une image qui a été encodée sous forme de nombres. Le réseau effectue une série d'opérations de multiplication complexes, couche par couche, jusqu'à ce que le résultat soit un seul nombre. Si ce nombre est positif, le réseau classe l'image comme un chien, et s'il est négatif comme un chat.
Les fonctions d'activation aident le réseau à apprendre des modèles complexes dans les données d'entrée. Pour ce faire, ils appliquent une transformation à la sortie d'une couche avant que les données ne soient envoyées à la couche suivante. Lorsque les chercheurs construisent un réseau de neurones, ils sélectionnent une fonction d'activation à utiliser. Ils choisissent également la largeur du réseau (combien de neurones sont dans chaque couche) et la profondeur (combien de couches sont dans le réseau.)
"Il s'avère que, si vous prenez les fonctions d'activation standard que les gens utilisent dans la pratique, et continuez d'augmenter la profondeur du réseau, cela vous donne des performances vraiment terribles. Nous montrons que si vous concevez avec différentes fonctions d'activation, plus vous obtenez données, votre réseau s'améliorera de plus en plus », déclare Radhakrishnan.
Lui et ses collaborateurs ont étudié une situation dans laquelle un réseau neuronal est infiniment profond et large - ce qui signifie que le réseau est construit en ajoutant continuellement plus de couches et plus de nœuds - et est formé pour effectuer des tâches de classification. Dans la classification, le réseau apprend à placer les entrées de données dans des catégories distinctes.
"Une image propre"
Après avoir effectué une analyse détaillée, les chercheurs ont déterminé qu'il n'y a que trois façons dont ce type de réseau peut apprendre à classer les entrées. Une méthode classe une entrée sur la base de la majorité des entrées dans les données d'apprentissage ; s'il y a plus de chiens que de chats, il décidera que chaque nouvelle entrée est un chien. Une autre méthode classe en choisissant l'étiquette (chien ou chat) du point de données d'entraînement qui ressemble le plus à la nouvelle entrée.
La troisième méthode classe une nouvelle entrée en fonction d'une moyenne pondérée de tous les points de données d'apprentissage qui lui sont similaires. Leur analyse montre que c'est la seule méthode des trois qui conduit à des performances optimales. Ils ont identifié un ensemble de fonctions d'activation qui utilisent toujours cette méthode de classification optimale.
"C'était l'une des choses les plus surprenantes - peu importe ce que vous choisissez pour une fonction d'activation, ce sera juste l'un de ces trois classificateurs. Nous avons des formules qui vous diront explicitement lequel de ces trois ce sera. C'est une image très propre", dit-il.
Ils ont testé cette théorie sur plusieurs tâches d'analyse comparative de classification et ont constaté qu'elle entraînait une amélioration des performances dans de nombreux cas. Les constructeurs de réseaux neuronaux pourraient utiliser leurs formules pour sélectionner une fonction d'activation qui améliore les performances de classification, explique Radhakrishnan.
À l'avenir, les chercheurs veulent utiliser ce qu'ils ont appris pour analyser des situations où ils disposent d'une quantité limitée de données et pour des réseaux qui ne sont pas infiniment larges ou profonds. Ils souhaitent également appliquer cette analyse à des situations où les données n'ont pas d'étiquettes.
"Dans l'apprentissage en profondeur, nous voulons construire des modèles fondés sur la théorie afin de pouvoir les déployer de manière fiable dans un environnement critique. C'est une approche prometteuse pour arriver à quelque chose comme ça : construire des architectures d'une manière théoriquement fondée qui se traduit par de meilleurs résultats dans pratique », dit-il.
Plus d'information: Adityanarayanan Radhakrishnan et al, Les réseaux de neurones larges et profonds assurent la cohérence pour la classification, Actes de l'Académie nationale des sciences (2023). DOI : 10.1073/pnas.2208779120
Cette histoire est republiée avec l'aimable autorisation de MIT News (web.mit.edu/newsoffice/), un site populaire qui couvre l'actualité de la recherche, de l'innovation et de l'enseignement au MIT.
Citation: Une méthode pour concevoir des réseaux de neurones parfaitement adaptés à certaines tâches (2023, 30 mars) récupéré le 30 mars 2023 sur
Ce document est soumis au droit d'auteur. En dehors de toute utilisation loyale à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans l'autorisation écrite. Le contenu est fourni seulement pour information.
Source