Des chercheurs entraînent l’IA avec un apprentissage par renforcement pour vaincre les champions de Street Fighter
Des chercheurs entraînent l’IA avec un apprentissage par renforcement pour vaincre les champions de Street Fighter

Les chercheurs du SUTD entraînent l’IA avec un apprentissage par renforcement pour vaincre les champions de Street Fighter
Graphique du réseau de neurones (à gauche) et instantané du jeu vidéo (à droite). Crédit : SUTD

Des chercheurs de l’Université de technologie et de design de Singapour (SUTD) ont appliqué avec succès l’apprentissage par renforcement à un problème de jeu vidéo. L'équipe de recherche a créé un nouveau logiciel de conception de mouvements complexes basé sur une approche qui s'est avérée efficace dans les jeux de société comme Chess and Go. Lors d'un seul test, les mouvements issus de la nouvelle approche se sont révélés supérieurs à ceux des meilleurs joueurs humains.

Ces découvertes pourraient éventuellement avoir un impact sur la robotique et l’automatisation, ouvrant la voie à une nouvelle ère de conception de mouvements. L'article de l'équipe dans Systèmes de renseignement avancés s'intitule "Un apprentissage par renforcement memristif à changement de phase pour des joueurs champions de Street Fighter rapidement surperformants".

"Nos résultats démontrent que l'apprentissage par renforcement peut faire plus que simplement maîtriser de simples jeux de société. Le programme a excellé dans la création de mouvements plus complexes lorsqu'il est formé pour relever les défis de longue date de la science du mouvement", a déclaré le chercheur principal Desmond Loke, professeur agrégé au SUTD.

"Si cette méthode est appliquée aux bons problèmes de recherche", dit-il, "elle pourrait accélérer les progrès dans divers domaines scientifiques".

L’étude marque un tournant décisif dans l’utilisation de l’intelligence artificielle pour faire progresser les études sur la science du mouvement. Les applications possibles sont nombreuses, allant du développement d’automobiles plus autonomes à de nouveaux robots collaboratifs et drones aériens.

L'apprentissage par renforcement est une sorte d'apprentissage automatique dans lequel un programme informatique apprend à prendre des décisions en expérimentant diverses actions et en obtenant des commentaires. Par exemple, l’algorithme peut apprendre à jouer aux échecs en testant des millions de mouvements possibles qui aboutissent à un succès ou à une défaite sur l’échiquier. Le programme vise à aider les algorithmes à tirer les leçons de leurs expériences et à améliorer leurs compétences décisionnelles au fil du temps.

L'équipe de recherche a fourni à l'ordinateur des millions de mouvements initiaux pour créer un programme d'apprentissage par renforcement pour la conception des mouvements. Le programme a ensuite fait plusieurs essais pour améliorer chaque mouvement de manière aléatoire vers un objectif spécifique. L'ordinateur modifie les mouvements du personnage ou ajuste sa stratégie jusqu'à ce qu'il apprenne à effectuer des mouvements qui dépassent l'IA intégrée.

Performances au niveau humain dans le jeu Street Fighter utilisant l'apprentissage par renforcement de la mémoire par changement de phase. Crédit : SUTD

Le professeur associé Loke a ajouté : « Notre approche est unique car nous utilisons l'apprentissage par renforcement pour résoudre le problème de la création de mouvements qui surpassent ceux des meilleurs joueurs humains. Cela n'était tout simplement pas possible avec les approches précédentes, et cela a le potentiel de transformer les types de mouvements que nous Peut créer."

Dans le cadre de leurs recherches, les scientifiques créent des mouvements pour rivaliser avec diverses IA intégrées. Ils ont confirmé que ces mouvements pourraient vaincre différents adversaires IA intégrés.

"Cette approche est non seulement efficace, mais elle est également économe en énergie." Le système basé sur la mémoire à changement de phase, par exemple, était capable d'effectuer des mouvements avec une consommation d'énergie matérielle d'environ 26 fJ, soit 141 fois inférieure à celle des systèmes GPU existants. "Son potentiel pour fabriquer des mouvements à très faible consommation d'énergie matérielle n'a pas encore été pleinement exploré", a déclaré le professeur associé Loke.

L'équipe s'est concentrée sur la création de nouveaux mouvements capables de vaincre les meilleurs joueurs humains en peu de temps. Cela nécessitait l'utilisation d'algorithmes basés sur la désintégration pour créer les mouvements.

Les tests d'algorithmes ont révélé que les nouveaux mouvements conçus par l'IA étaient efficaces. Les chercheurs ont noté de nombreuses bonnes qualités pour mesurer le succès du système de conception, telles qu'une étiquette de jeu raisonnable, la gestion des informations inexactes, la capacité à atteindre des états de jeu spécifiques et les délais courts nécessaires pour vaincre les adversaires.

Autrement dit, le programme a fait preuve de qualités physiques et mentales exceptionnelles. C’est ce qu’on appelle une conception de mouvement efficace. Par exemple, les mouvements ont mieux réussi à vaincre les adversaires parce que la technique basée sur la désintégration utilisée pour entraîner les réseaux neuronaux nécessite moins d'étapes d'entraînement que les méthodes de désintégration conventionnelles.

Les chercheurs envisagent un avenir dans lequel cette stratégie leur permettra, ainsi qu’à d’autres, de développer des mouvements, des compétences et d’autres actions qui n’étaient pas possibles auparavant.

"Plus la technologie devient efficace, plus elle ouvre des applications potentielles, y compris la progression continue des tâches compétitives que les ordinateurs peuvent faciliter pour les meilleurs joueurs, comme au Poker, Starcraft et Jeopardy", a déclaré le professeur associé Loke. "Nous pourrions également assister à une compétition réaliste de haut niveau pour entraîner des joueurs professionnels, découvrir de nouvelles tactiques et rendre les jeux vidéo plus intéressants."

Les chercheurs du SUTD Shao-Xiang Go et Yu Jiang ont également contribué à l'étude.

Plus d'information: Shao-Xiang Go et al, Un apprentissage par renforcement memristif à changement de phase pour des joueurs de Street-Fighter champions rapidement surperformants, Systèmes intelligents avancés (2023). DOI : 10.1002/aisy.202300335

Fourni par l'Université de technologie et de design de Singapour

Citation: Des chercheurs entraînent l'IA avec un apprentissage par renforcement pour vaincre les joueurs champions de Street Fighter (2023, 5 octobre) récupéré le 7 octobre 2023 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation équitable à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.




Source

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top