Notre approche pour aligner l'AGI est empirique et itérative. Nous améliorons la capacité de nos systèmes d'IA à apprendre des commentaires humains et à aider les humains à évaluer l'IA. Notre objectif est de construire un système d'IA suffisamment aligné qui puisse nous aider à résoudre tous les autres problèmes d'alignement.
Introduction
Notre recherche d'alignement vise à aligner l'intelligence artificielle générale (AGI) sur les valeurs humaines et à suivre l'intention humaine. Nous adoptons une approche itérative et empirique : en essayant d'aligner des systèmes d'IA hautement performants, nous pouvons apprendre ce qui fonctionne et ce qui ne fonctionne pas, affinant ainsi notre capacité à rendre les systèmes d'IA plus sûrs et plus alignés. À l'aide d'expériences scientifiques, nous étudions comment les techniques d'alignement évoluent et où elles se cassent.
Nous abordons les problèmes d'alignement à la fois dans nos systèmes d'IA les plus performants ainsi que les problèmes d'alignement que nous nous attendons à rencontrer sur notre chemin vers l'AGI. Notre objectif principal est de pousser les idées d'alignement actuelles aussi loin que possible, et de comprendre et de documenter précisément comment elles peuvent réussir ou pourquoi elles échoueront. Nous pensons que même sans idées d'alignement fondamentalement nouvelles, nous pouvons probablement construire des systèmes d'IA suffisamment alignés pour faire progresser considérablement la recherche sur l'alignement elle-même.
Une AGI non alignée pourrait poser des risques substantiels pour l'humanité et résoudre le problème d'alignement AGI pourrait être si difficile qu'il faudra que toute l'humanité travaille ensemble. Par conséquent, nous nous engageons à partager ouvertement nos recherches sur l'alignement lorsqu'il est sûr de le faire : nous voulons être transparents sur la façon dont nos techniques d'alignement fonctionnent réellement dans la pratique et nous voulons que chaque développeur AGI utilise les meilleures techniques d'alignement au monde.
À un niveau élevé, notre approche de la recherche sur l'alignement se concentre sur la conception d'un signal de formation évolutif pour des systèmes d'IA très intelligents alignés sur l'intention humaine. Elle repose sur trois piliers principaux :
- Formation des systèmes d'IA à l'aide de la rétroaction humaine
- Former des systèmes d'IA pour aider l'évaluation humaine
- Formation des systèmes d'IA pour effectuer des recherches d'alignement
L'alignement des systèmes d'IA sur les valeurs humaines pose également une série d'autres défis sociotechniques importants, tels que le choix de l'alignement de ces systèmes. Il est important de résoudre ces problèmes pour atteindre notre missionmais nous n'en parlons pas dans cet article.
Formation des systèmes d'IA à l'aide de la rétroaction humaine
RL à partir de la rétroaction humaine est notre technique principale pour aligner nos modèles de langage déployés aujourd'hui. Nous entraînons une classe de modèles appelés InstruireGPT dérivé de modèles de langage pré-entraînés tels que GPT-3. Ces modèles sont formés pour suivre l'intention humaine : à la fois l'intention explicite donnée par une instruction et l'intention implicite telle que la véracité, l'équité et la sécurité.
Nos résultats montrent qu'il y a beaucoup de fruits à portée de main sur le réglage fin axé sur l'alignement en ce moment : InstructGPT est préféré par les humains à un modèle pré-entraîné 100 fois plus grand, tandis que son réglage fin coûte <2 % du calcul de pré-apprentissage de GPT-3. et environ 20 000 heures de rétroaction humaine. Nous espérons que notre travail inspirera d'autres acteurs de l'industrie à augmenter leur investissement dans l'alignement de grands modèles de langage et qu'il élèvera la barre des attentes des utilisateurs concernant la sécurité des modèles déployés.
Notre API de langage naturel est un environnement très utile pour nos recherches sur l'alignement : il nous fournit une riche boucle de rétroaction sur le fonctionnement réel de nos techniques d'alignement dans le monde réel, fondée sur un ensemble très diversifié de tâches pour lesquelles nos clients sont prêts à payer. En moyenne, nos clients préfèrent déjà utiliser InstructGPT plutôt que nos modèles pré-entraînés.
Pourtant, les versions actuelles d'InstructGPT sont assez loin d'être complètement aligné: ils échouent parfois à suivre des instructions simples, ne sont pas toujours véridiques, ne refusent pas de manière fiable les tâches nuisibles et donnent parfois des réponses biaisées ou toxiques. Certains clients trouvent les réponses d'InstructGPT nettement moins créatives que celles des modèles préformés, ce que nous n'avions pas réalisé en exécutant InstructGPT sur des benchmarks accessibles au public. Nous travaillons également sur le développement d'une compréhension scientifique plus détaillée de la RL à partir de la rétroaction humaine et sur la manière d'améliorer la qualité de la rétroaction humaine.
Aligner notre API est beaucoup plus facile que d'aligner AGI puisque la plupart des tâches sur notre API ne sont pas très difficiles à superviser pour les humains et nos modèles de langage déployés ne sont pas plus intelligents que les humains. Nous ne nous attendons pas à ce que le RL de la rétroaction humaine soit suffisant pour aligner l'AGI, mais c'est un élément de base pour les propositions d'alignement évolutives qui nous intéressent le plus, et il est donc utile de perfectionner cette méthodologie.
Modèles de formation pour aider l'évaluation humaine
Le RL à partir de la rétroaction humaine a une limitation fondamentale : il suppose que les humains peuvent évaluer avec précision les tâches que nos systèmes d'IA effectuent. Aujourd'hui, les humains sont assez bons dans ce domaine, mais à mesure que les modèles deviennent plus capables, ils seront capables d'effectuer des tâches beaucoup plus difficiles à évaluer pour les humains (par exemple, trouver toutes les failles dans une grande base de code ou un article scientifique). Nos modèles pourraient apprendre à dire à nos évaluateurs humains ce qu'ils veulent entendre au lieu de leur dire la vérité. Afin de mettre à l'échelle l'alignement, nous voulons utiliser des techniques telles que modélisation de récompense récursive (RRM), débatet amplification itérée.
Actuellement, notre direction principale est basée sur RRM : nous formons des modèles qui peuvent aider les humains à évaluer nos modèles sur des tâches trop difficiles à évaluer directement pour les humains. Par exemple:
- Nous avons formé un modèle pour résumer des livres. L'évaluation des résumés de livres prend beaucoup de temps pour les humains s'ils ne sont pas familiers avec le livre, mais notre modèle peut aider l'évaluation humaine en écrivant des résumés de chapitre.
- Nous avons formé un modèle pour aider les humains à évaluer l'exactitude factuelle en naviguant sur le Web et en fournissant des citations et des liens. Sur des questions simples, les sorties de ce modèle sont déjà préférées aux réponses écrites par des humains.
- Nous avons formé un modèle pour rédiger des commentaires critiques sur ses propres résultats: Sur une tâche de synthèse basée sur des requêtes, l'assistance aux commentaires critiques augmente de 50 % en moyenne les défauts que les humains trouvent dans les sorties du modèle. Cela vaut même si nous demandons aux humains d'écrire des résumés plausibles mais incorrects.
- Nous créons un ensemble de tâches de codage sélectionnées pour être très difficiles à évaluer de manière fiable pour les humains non assistés. Nous espérons publier cet ensemble de données bientôt.
Nos techniques d'alignement doivent fonctionner même si nos systèmes d'IA proposent des solutions très créatives (comme Le coup d'AlphaGo 37), nous nous intéressons donc particulièrement aux modèles de formation pour aider les humains à distinguer les solutions correctes des solutions trompeuses ou trompeuses. Nous pensons que la meilleure façon d'en apprendre le plus possible sur la façon de faire fonctionner l'évaluation assistée par l'IA dans la pratique est de créer des assistants d'IA.
Formation des systèmes d'IA pour effectuer des recherches d'alignement
Il n'existe actuellement aucune solution indéfiniment évolutive connue au problème d'alignement. Au fur et à mesure que les progrès de l'IA se poursuivent, nous nous attendons à rencontrer un certain nombre de nouveaux problèmes d'alignement que nous n'observons pas encore dans les systèmes actuels. Nous anticipons maintenant certains de ces problèmes et certains d'entre eux seront entièrement nouveaux.
Nous pensons qu'il est probablement très difficile de trouver une solution évolutive indéfiniment. Au lieu de cela, nous visons une approche plus pragmatique : construire et aligner un système qui peut faire progresser la recherche d'alignement plus rapidement et mieux que les humains.
Au fur et à mesure que nous progressons dans ce domaine, nos systèmes d'IA peuvent prendre en charge de plus en plus notre travail d'alignement et, en fin de compte, concevoir, mettre en œuvre, étudier et développer de meilleures techniques d'alignement que celles que nous avons actuellement. Ils travailleront avec les humains pour s'assurer que leurs propres successeurs sont plus alignés avec les humains.
Nous pensons qu'il est beaucoup plus facile d'évaluer la recherche sur l'alignement que de la produire, en particulier lorsqu'elle est accompagnée d'une aide à l'évaluation. Par conséquent, les chercheurs humains concentreront de plus en plus leurs efforts sur l'examen des recherches d'alignement effectuées par les systèmes d'IA au lieu de générer ces recherches par eux-mêmes. Notre objectif est de former des modèles pour qu'ils soient tellement alignés que nous pouvons décharger presque tout le travail cognitif requis pour la recherche d'alignement.
Il est important de noter que nous n'avons besoin que de systèmes d'IA "plus étroits" qui ont des capacités au niveau humain dans les domaines pertinents pour faire aussi bien que les humains sur la recherche d'alignement. Nous nous attendons à ce que ces systèmes d'IA soient plus faciles à aligner que les systèmes à usage général ou les systèmes beaucoup plus intelligents que les humains.
Les modèles de langage sont particulièrement bien adaptés pour automatiser la recherche d'alignement car ils sont « préchargés » avec beaucoup de connaissances et d'informations sur les valeurs humaines issues de la lecture d'Internet. Hors de la boîte, ils ne sont pas des agents indépendants et ne poursuivent donc pas leurs propres objectifs dans le monde. Pour effectuer des recherches d'alignement, ils n'ont pas besoin d'un accès illimité à Internet. Pourtant, de nombreuses tâches de recherche d'alignement peuvent être exprimées en langage naturel ou en tâches de codage.
Les futures versions de WebGPT, InstruireGPTet Manuscrit peuvent fournir une base en tant qu'assistants de recherche sur l'alignement, mais ils ne sont pas encore suffisamment capables. Bien que nous ne sachions pas quand nos modèles seront suffisamment capables de contribuer de manière significative à la recherche sur l'alignement, nous pensons qu'il est important de commencer à l'avance. Une fois que nous avons formé un modèle qui pourrait être utile, nous prévoyons de le rendre accessible à la communauté externe de recherche sur l'alignement.
Limites
Nous sommes très enthousiasmés par cette approche visant à aligner l'AGI, mais nous nous attendons à ce qu'elle doive être adaptée et améliorée à mesure que nous en apprendrons davantage sur le développement de la technologie de l'IA. Notre approche présente également un certain nombre de limites importantes :
- Le chemin tracé ici sous-estime l'importance de la recherche sur la robustesse et l'interprétabilité, deux domaines dans lesquels OpenAI est actuellement sous-investi. Si cela correspond à votre profil, veuillez postuler pour nos postes de chercheur !
- L'utilisation de l'assistance de l'IA pour l'évaluation a le potentiel d'augmenter ou d'amplifier même les incohérences, les biais ou les vulnérabilités subtiles présents dans l'assistant d'IA.
- L'alignement de l'AGI implique probablement la résolution de problèmes très différents de l'alignement des systèmes d'IA actuels. Nous nous attendons à ce que la transition soit quelque peu continue, mais s'il y a des discontinuités ou des changements de paradigme majeurs, la plupart des leçons tirées de l'alignement de modèles comme InstructGPT pourraient ne pas être directement utiles.
- Les parties les plus difficiles du problème d'alignement pourraient ne pas être liées à la conception d'un signal de formation évolutif et aligné pour nos systèmes d'IA. Même si cela est vrai, un tel signal d'entraînement sera nécessaire.
- Il n'est peut-être pas fondamentalement plus facile d'aligner des modèles qui peuvent accélérer de manière significative la recherche d'alignement que d'aligner l'AGI. En d'autres termes, les modèles les moins performants qui peuvent aider à la recherche d'alignement pourraient déjà être trop dangereux s'ils ne sont pas correctement alignés. Si cela est vrai, nous n'obtiendrons pas beaucoup d'aide de nos propres systèmes pour résoudre les problèmes d'alignement.
Nous cherchons à embaucher des personnes plus talentueuses pour cette ligne de recherche ! Si cela vous intéresse, nous recrutons Ingénieurs de recherche et Chercheurs scientifiques!
Source