
Les enfants qui apprennent à marcher pour la première fois peuvent aller un peu trop vite et tomber ou se heurter à un meuble. Cependant, cet élément de cause à effet leur enseigne des informations inestimables sur la façon dont leur corps se déplace dans l'espace afin qu'ils puissent éviter de tomber à l'avenir.
Les machines apprennent de la même manière que les humains, y compris en apprenant de leurs erreurs. Cependant, pour de nombreuses machines, comme les voitures autonomes et les systèmes électriques, l'apprentissage sur le tas avec la sécurité humaine en jeu pose un problème. À mesure que l'apprentissage automatique mûrit et prolifère, il existe un intérêt croissant pour l'appliquer à des systèmes autonomes hautement complexes et critiques pour la sécurité. La promesse de ces technologies, cependant, est entravée par les risques de sécurité inhérents au processus de formation et au-delà.
Un nouveau document de recherche remet en question l'idée selon laquelle vous avez besoin d'un nombre illimité d'essais pour apprendre des actions sûres dans des environnements inconnus. L'article, publié récemment dans la revue Transactions IEEE sur le contrôle automatiqueprésente une nouvelle approche qui garantit l'apprentissage d'actions sûres en toute confiance, tout en gérant l'équilibre entre être optimal, rencontrer des situations dangereuses et reconnaître rapidement les actions dangereuses.
"Généralement, l'apprentissage automatique recherche la solution la plus optimisée, ce qui peut entraîner davantage d'erreurs en cours de route. C'est problématique lorsque l'erreur peut signifier s'écraser contre un mur", a expliqué Juan Andres Bazerque, professeur adjoint de génie électrique et informatique au Swanson. School of Engineering, qui a dirigé la recherche avec le professeur agrégé Enrique Mallada à l'Université Johns Hopkins.
"Dans cette étude, nous montrons que l'apprentissage de politiques sûres est fondamentalement différent de l'apprentissage de politiques optimales, et que cela peut être fait séparément et efficacement."
L'équipe de recherche a mené des études dans deux scénarios différents pour illustrer leur concept. En faisant des hypothèses raisonnables sur l'exploration, ils ont créé un algorithme qui détecte toutes les actions dangereuses dans un nombre limité de tours. L'équipe a également relevé le défi de trouver des politiques optimales pour un processus de décision de Markov (MDP) avec des contraintes presque sûres.
Leur analyse a mis en évidence un compromis entre le temps nécessaire pour détecter les actions dangereuses dans le MDP sous-jacent et le niveau d'exposition aux événements dangereux. Le MDP est utile car il fournit un cadre mathématique pour modéliser la prise de décision dans des situations où les résultats sont en partie aléatoires et en partie sous le contrôle d'un décideur.
Pour valider leurs découvertes théoriques, les chercheurs ont mené des simulations qui ont confirmé les compromis identifiés. Ces résultats suggèrent également que l'intégration des contraintes de sécurité peut accélérer le processus d'apprentissage.
"Cette recherche remet en question la croyance dominante selon laquelle l'apprentissage d'actions sûres nécessite un nombre illimité d'essais", a déclaré Bazerque. "Nos résultats démontrent qu'en gérant efficacement les compromis entre l'optimalité, l'exposition à des événements dangereux et le temps de détection, nous pouvons obtenir une sécurité garantie sans un nombre infini d'explorations. Cela a des implications importantes pour la robotique, les systèmes autonomes et l'intelligence artificielle, et plus encore. "
Plus d'information: Agustin Castellano et al, Apprendre à agir en toute sécurité avec une exposition limitée et une certitude presque sûre, Transactions IEEE sur le contrôle automatique (2023). DOI : 10.1109/TAC.2023.3240925
Citation: Engineering safer machine learning (14 juin 2023) récupéré le 14 juin 2023 sur
Ce document est soumis au droit d'auteur. En dehors de toute utilisation loyale à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans l'autorisation écrite. Le contenu est fourni seulement pour information.
Source