Les systèmes d’IA ont appris à tromper les humains. Qu’est-ce que cela signifie pour notre avenir ?
Les systèmes d’IA ont appris à tromper les humains. Qu’est-ce que cela signifie pour notre avenir ?

Les systèmes d’IA ont appris à tromper les humains.  Qu’est-ce que cela signifie pour notre avenir ?
Crédit : Shutterstock

Geoffrey Hinton, pionnier de l’intelligence artificielle, a fait la une des journaux plus tôt cette année lorsqu’il a fait part de ses inquiétudes quant aux capacités des systèmes d’IA. S'adressant au journaliste de CNN Jake Tapper, Hinton a dit:

"S'il devient beaucoup plus intelligent que nous, il sera très doué en manipulation car il aura appris cela de nous. Et il existe très peu d'exemples d'une chose plus intelligente contrôlée par une chose moins intelligente."

Quiconque a gardé un œil sur les dernières offres d'IA sait que ces systèmes ont tendance à « halluciner » (à inventer des choses), un défaut qui leur est inhérent en raison de leur fonctionnement.

Pourtant, Hinton souligne le potentiel de manipulation comme une préoccupation particulièrement majeure. Cela soulève la question : les systèmes d’IA peuvent-ils tromper les humains ?

Nous nous disputons toute une série de systèmes ont déjà appris à le faire – et les risques vont de la fraude et de la falsification des élections à la perte du contrôle de l’IA.

L'IA apprend à mentir

L'exemple le plus troublant d'IA trompeuse se trouve peut-être dans Meta. CICÉRONun modèle d'IA conçu pour jouer au jeu de conquête mondiale de construction d'alliances Diplomacy.

Meta affirme avoir construit CICERO pour qu'il soit "en grande partie honnête et serviable", et CICERO le ferait "ne jamais poignarder intentionnellement" et attaquez les alliés.

Pour enquêter sur ces affirmations optimistes, nous avons examiné attentivement les propres données de jeu de Meta issues de l'expérience CICERO. Après une inspection minutieuse, l'IA de Meta s'est avérée être un maître de la tromperie.

Dans un exemple, CICERO s’est livré à une tromperie préméditée. Incarnant la France, l'IA a contacté l'Allemagne (un joueur humain) avec un plan visant à tromper l'Angleterre (un autre joueur humain) pour qu'elle se laisse ouverte à l'invasion.

Après avoir conspiré avec l'Allemagne pour envahir la mer du Nord, CICERO a déclaré à l'Angleterre qu'il défendrait l'Angleterre si quelqu'un envahissait la mer du Nord. Une fois que l'Angleterre fut convaincue que la France/CICERO protégeait la mer du Nord, le CICERO informa l'Allemagne qu'il était prêt à attaquer.

Ce n’est là qu’un exemple parmi d’autres de comportements trompeurs de CICERO. L'IA trahissait régulièrement les autres joueurs et, dans un cas, prétendait même être un humain. avec une copine.

Outre CICERO, d’autres systèmes ont appris à bluffer pokercomment faire une feinte StarCraft II et comment induire en erreur dans une simulation négociations économiques.

Même les grands modèles de langage (LLM) ont fait preuve d’importantes capacités trompeuses. Dans un cas, GPT-4, l'option LLM la plus avancée disponible pour les utilisateurs payants de ChatGPT, prétendait être un humain malvoyant et convaincu un employé de TaskRabbit de compléter un CAPTCHA « Je ne suis pas un robot » pour cela.

D'autres modèles LLM ont appris à mentir pour gagner des jeux de déduction sociale, dans lesquels les joueurs s'affrontent pour « s'entre-tuer » et doivent convaincre le groupe qu'ils sont innocents.

Quels sont les risques ?

Les systèmes d’IA dotés de capacités trompeuses pourraient être utilisés à mauvais escient de nombreuses manières, notamment pour commettre des fraudes, falsifier des élections et générer de la propagande. Les risques potentiels ne sont limités que par l’imagination et le savoir-faire technique des individus malveillants.

Au-delà de cela, les systèmes d’IA avancés peuvent utiliser de manière autonome la tromperie pour échapper au contrôle humain, par exemple en trichant aux tests de sécurité qui leur sont imposés par les développeurs et les régulateurs.

Dans une expérience, les chercheurs ont créé un simulateur de vie artificielle dans lequel un test de sécurité externe a été conçu pour éliminer les agents d'IA à réplication rapide. Au lieu de cela, les agents IA ont appris à faire le mort, à dissimuler leurs taux de réplication rapides précisément lors de leur évaluation.

L’apprentissage d’un comportement trompeur peut même ne pas nécessiter une intention explicite de tromper. Les agents de l’IA dans l’exemple ci-dessus ont fait le mort en raison d’un objectif de survie plutôt que d’un objectif de tromperie.

Dans un autre exemple, quelqu'un a chargé AutoGPT (un système d'IA autonome basé sur ChatGPT) de rechercher des conseillers fiscaux qui commercialisaient un certain type de stratagème d'évasion fiscale inapproprié. AutoGPT s'est acquitté de cette tâche, mais a ensuite décidé de tenter d'alerter le fisc britannique.

À l’avenir, les systèmes d’IA autonomes avancés pourraient être enclins à manifester des objectifs involontaires de la part de leurs programmeurs humains.

Tout au long de l’histoire, des acteurs fortunés ont eu recours à la tromperie pour accroître leur pouvoir, par exemple en faisant pression sur les politiciens, en finançant des recherches trompeuses et en trouvant des failles dans le système juridique. De même, les systèmes d’IA autonomes avancés pourraient investir leurs ressources dans de telles méthodes éprouvées pour maintenir et étendre le contrôle.

Même les humains qui contrôlent nominalement ces systèmes peuvent se retrouver systématiquement trompés et déjoués.

Une surveillance étroite est nécessaire

Il existe un besoin évident de réglementer les systèmes d'IA capables de tromperie, et le Loi sur l'IA de l'Union européenne est sans doute l’un des cadres réglementaires les plus utiles dont nous disposons actuellement. Il attribue à chaque système d’IA l’un des quatre niveaux de risque : minimal, limité, élevé et inacceptable.

Les systèmes présentant un risque inacceptable sont interdits, tandis que les systèmes à haut risque sont soumis à des exigences particulières en matière d'évaluation et d'atténuation des risques. Nous soutenons que la tromperie de l’IA présente d’immenses risques pour la société, et que les systèmes capables de le faire devraient être traités par défaut comme « à haut risque » ou « à risque inacceptable ».

Certains diront peut-être que les IA de jeu telles que CICERO sont inoffensives, mais une telle réflexion est à courte vue ; les capacités développées pour les modèles de jeu peuvent encore contribuer à la prolifération de produits d’IA trompeurs.

La diplomatie – un jeu opposant les joueurs les uns aux autres dans une quête de domination mondiale – n'était probablement pas le meilleur choix pour Meta pour tester si l'IA peut apprendre à collaborer avec les humains. À mesure que les capacités de l’IA se développeront, il deviendra encore plus important que ce type de recherche soit soumis à une surveillance étroite.

Fourni par La conversation

Cet article est republié à partir de La conversation sous licence Creative Commons. Lis le article original.La conversation

Citation: Les systèmes d'IA ont appris à tromper les humains. Qu’est-ce que cela signifie pour notre avenir ? (4 septembre 2023) récupéré le 5 septembre 2023 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation équitable à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.




Source

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top