Nous clarifions comment le comportement de ChatGPT est façonné et nos plans pour améliorer ce comportement, permettre une plus grande personnalisation des utilisateurs et obtenir plus de commentaires du public dans notre prise de décision dans ces domaines.
OpenAI mission est de faire en sorte que l'intelligence générale artificielle (IAG) profite à toute l'humanité. Nous réfléchissons donc beaucoup au comportement des systèmes d'IA que nous construisons dans la perspective de l'AGI, et à la manière dont ce comportement est déterminé.
Depuis notre lancement de ChatGPT, les utilisateurs ont partagé des contenus qu'ils considèrent politiquement biaisés, offensants ou autrement répréhensibles. Dans de nombreux cas, nous pensons que les inquiétudes soulevées ont été fondées et ont révélé de réelles limites de nos systèmes auxquelles nous voulons remédier. Nous avons également constaté quelques idées fausses sur la façon dont nos systèmes et politiques fonctionnent ensemble pour façonner les résultats que vous obtenez de ChatGPT.
Ci-dessous, nous résumons :
- Comment le comportement de ChatGPT est façonné ;
- Comment nous prévoyons d'améliorer le comportement par défaut de ChatGPT ;
- Notre intention de permettre une plus grande personnalisation du système ; et
- Nos efforts pour obtenir plus de commentaires du public sur notre prise de décision.
Où nous en sommes aujourd'hui
Contrairement aux logiciels ordinaires, nos modèles sont des réseaux de neurones massifs. Leurs comportements sont appris à partir d'un large éventail de données, non programmés explicitement. Bien qu'il ne s'agisse pas d'une analogie parfaite, le processus ressemble davantage à l'entraînement d'un chien qu'à une programmation ordinaire. Une phase initiale de « pré-formation » vient en premier, au cours de laquelle le modèle apprend à prédire le mot suivant dans une phrase, informé par son exposition à de nombreux textes Internet (et à un vaste éventail de perspectives). Ceci est suivi d'une deuxième phase dans laquelle nous « affinons » nos modèles pour affiner le comportement du système.
À ce jour, ce processus est imparfait. Parfois, le processus de réglage fin ne correspond pas à notre intention (produire un outil sûr et utile) et à l'intention de l'utilisateur (obtenir une sortie utile en réponse à une entrée donnée). Améliorer nos méthodes pour aligner les systèmes d'IA sur les valeurs humaines est une priorité priorité pour notre entreprise, en particulier à mesure que les systèmes d'IA deviennent plus performants.
Un processus en deux étapes : pré-formation et mise au point
Les deux étapes principales impliquées dans la construction de ChatGPT fonctionnent comme suit :
- Premièrement, nous "pré-train” modèles en leur faisant prédire ce qui vient ensuite dans un grand ensemble de données qui contient des parties d'Internet. Ils pourraient apprendre à compléter la phrase « au lieu de tourner à gauche, elle a tourné ___ ». En apprenant à partir de milliards de phrases, nos modèles apprennent la grammaire, de nombreux faits sur le monde et certaines capacités de raisonnement. Ils apprennent également certains des préjugés présents dans ces milliards de phrases.
- Ensuite nous "affiner” ces modèles sur un ensemble de données plus restreint que nous générons avec soin avec des examinateurs humains qui suivent les directives que nous leur fournissons. Étant donné que nous ne pouvons pas prédire toutes les entrées possibles que les futurs utilisateurs pourraient mettre dans notre système, nous n'écrivons pas d'instructions détaillées pour chaque entrée que ChatGPT rencontrera. Au lieu de cela, nous décrivons quelques catégories dans les lignes directrices que nos examinateurs utilisent pour examiner et évaluer les sorties de modèles possibles pour une gamme d'exemples d'entrées. Ensuite, pendant leur utilisation, les modèles généralisent à partir de ces commentaires de l'examinateur afin de répondre à un large éventail d'entrées spécifiques fournies par un utilisateur donné.
Le rôle des examinateurs et les politiques d'OpenAI dans le développement du système
Dans certains cas, nous pouvons donner des conseils à nos examinateurs sur un certain type de sortie (par exemple, "ne répondez pas aux demandes de contenu illégal"). Dans d'autres cas, les conseils que nous partageons avec les examinateurs sont de niveau plus élevé (par exemple, « éviter de prendre position sur des sujets controversés »). Il est important de noter que notre collaboration avec les réviseurs n'est pas unique, c'est une relation continue, dans laquelle nous apprenons beaucoup de leur expertise.
Une grande partie du processus de mise au point consiste à maintenir une boucle de rétroaction solide avec nos examinateurs, ce qui implique des réunions hebdomadaires pour répondre aux questions qu'ils pourraient avoir ou fournir des éclaircissements sur nos conseils. Ce processus de rétroaction itératif est la façon dont nous formons le modèle pour qu'il soit de mieux en mieux au fil du temps.
Lutter contre les préjugés
Beaucoup s'inquiètent à juste titre des biais dans la conception et l'impact des systèmes d'IA. Nous nous engageons à résoudre ce problème avec fermeté et à être transparents sur nos intentions et nos progrès. À cette fin, nous partageons une partie de nos lignes directrices qui se rapportent à des sujets politiques et controversés. Nos directives stipulent clairement que les examinateurs ne doivent favoriser aucun groupe politique. Les biais qui peuvent néanmoins émerger du processus décrit ci-dessus sont des bogues, pas des fonctionnalités.
Bien que des désaccords existeront toujours, nous espérons que le partage de cet article de blog et de ces instructions vous donnera un meilleur aperçu de la façon dont nous percevons cet aspect critique d'une technologie aussi fondamentale. Nous sommes convaincus que les entreprises technologiques doivent être responsables de l'élaboration de politiques qui résistent à l'examen.
Nous nous efforçons en permanence d'améliorer la clarté de ces consignes. Sur la base de ce que nous avons appris du lancement de ChatGPT jusqu'à présent, nous allons fournir des instructions plus claires aux examinateurs concernant les pièges et les défis potentiels liés aux biais, ainsi que personnages et thèmes controversés. De plus, dans le cadre d'initiatives de transparence en cours, nous nous efforçons de partager des informations démographiques agrégées sur nos examinateurs d'une manière qui ne viole pas les règles et normes de confidentialité, car il s'agit d'une source supplémentaire de biais potentiel dans les sorties du système.
Nous recherchons actuellement comment fabriquer processus de mise au point plus compréhensibles et contrôlables, et s'appuient sur des avancées externes telles que récompenses basées sur des règles et IA constitutionnelle.
Où nous allons : les éléments constitutifs des futurs systèmes
Dans la poursuite de notre mission, nous nous engageons à faire en sorte que l'accès, les avantages et l'influence sur l'IA et l'IAG soient généralisés. Nous pensons qu'il existe au moins trois éléments de base nécessaires pour atteindre ces objectifs dans le contexte du comportement du système d'IA.
1. Améliorer le comportement par défaut. Nous voulons que le plus grand nombre possible d'utilisateurs trouvent nos systèmes d'IA utiles « prêts à l'emploi » et aient le sentiment que notre technologie comprend et respecte leurs valeurs.
À cette fin, nous investissons dans la recherche et l'ingénierie pour réduire les biais flagrants et subtils dans la façon dont ChatGPT répond aux différentes entrées. Dans certains cas, ChatGPT refuse actuellement des sorties qu'il ne devrait pas, et dans certains cas, il ne refuse pas quand il le devrait. Nous croyons que des améliorations à ces deux égards sont possibles.
De plus, nous avons des marges d'amélioration dans d'autres dimensions du comportement du système, telles que le système qui « invente des choses ». Les commentaires des utilisateurs sont inestimables pour apporter ces améliorations.
2. Définissez les valeurs de votre IA, dans de larges limites. Nous pensons que l'IA doit être un outil utile pour les individus, et donc personnalisable par chaque utilisateur jusqu'aux limites définies par la société. Par conséquent, nous développons une mise à niveau vers ChatGPT pour permettre aux utilisateurs de personnaliser facilement son comportement.
Cela signifiera autoriser les sorties du système avec lesquelles d'autres personnes (y compris nous-mêmes) peuvent être fortement en désaccord. Trouver le bon équilibre ici sera difficile - pousser la personnalisation à l'extrême risquerait de permettre utilisations malveillantes de notre technologie et des IA sycophantiques qui amplifient sans réfléchir les croyances existantes des gens.
Il y aura donc toujours des limites au comportement du système. Le défi consiste à définir quelles sont ces limites. Si nous essayons de prendre toutes ces décisions par nous-mêmes, ou si nous essayons de développer un seul système d'IA monolithique, nous manquerons à l'engagement que nous prenons dans notre Charte d'"éviter une concentration excessive du pouvoir".
3. Contribution publique sur les valeurs par défaut et les limites strictes. Une façon d'éviter une concentration excessive du pouvoir est de donner aux personnes qui utilisent ou sont affectées par des systèmes comme ChatGPT la possibilité d'influencer les règles de ces systèmes.
Nous pensons que de nombreuses décisions concernant nos valeurs par défaut et nos limites strictes doivent être prises collectivement, et bien que la mise en œuvre pratique soit un défi, nous visons à inclure autant de perspectives que possible. Comme point de départ, nous avons recherché des commentaires externes sur notre technologie sous la forme de équipe rouge. Nous avons également commencé récemment solliciter la contribution du public sur l'IA dans l'éducation (un contexte particulièrement important dans lequel notre technologie est déployée).
Nous en sommes aux premiers stades des efforts pilotes pour solliciter les commentaires du public sur des sujets tels que le comportement du système, les mécanismes de divulgation (tels que le filigrane) et nos politiques de déploiement plus largement. Nous explorons également des partenariats avec des organisations externes pour mener des audits tiers de nos efforts en matière de sécurité et de politique.
Conclusion
La combinaison des trois blocs de construction ci-dessus donne l'image suivante de l'endroit où nous nous dirigeons :
Parfois, nous ferons des erreurs. Lorsque nous le ferons, nous apprendrons d'eux et répéter sur nos modèles et systèmes.
Nous apprécions la communauté d'utilisateurs de ChatGPT ainsi que la vigilance du grand public pour nous tenir responsables, et nous sommes ravis de partager davantage sur notre travail dans les trois domaines ci-dessus dans les mois à venir.
Si vous souhaitez effectuer des recherches pour aider à réaliser cette vision, y compris, mais sans s'y limiter, des recherches sur l'équité et la représentation, l'alignement et la recherche sociotechnique pour comprendre l'impact de l'IA sur la société, veuillez demander un accès subventionné à notre API via le Programme d'accès des chercheurs.
Nous sommes aussi embauche pour des postes dans les domaines de la recherche, de l'alignement, de l'ingénierie, etc.
Source