Notre approche de la recherche d’alignement
Notre approche de la recherche d’alignement

Il n'existe actuellement aucune solution indéfiniment évolutive connue au problème d'alignement. Au fur et à mesure que les progrès de l'IA se poursuivent, nous nous attendons à rencontrer un certain nombre de nouveaux problèmes d'alignement que nous n'observons pas encore dans les systèmes actuels. Nous anticipons maintenant certains de ces problèmes et certains d'entre eux seront entièrement nouveaux.

Nous pensons qu'il est probablement très difficile de trouver une solution évolutive indéfiniment. Au lieu de cela, nous visons une approche plus pragmatique : construire et aligner un système qui peut faire progresser la recherche d'alignement plus rapidement et mieux que les humains.

Au fur et à mesure que nous progressons dans ce domaine, nos systèmes d'IA peuvent prendre en charge de plus en plus notre travail d'alignement et, en fin de compte, concevoir, mettre en œuvre, étudier et développer de meilleures techniques d'alignement que celles que nous avons actuellement. Ils travailleront avec les humains pour s'assurer que leurs propres successeurs sont plus alignés avec les humains.

Nous pensons qu'il est beaucoup plus facile d'évaluer la recherche sur l'alignement que de la produire, en particulier lorsqu'elle est accompagnée d'une aide à l'évaluation. Par conséquent, les chercheurs humains concentreront de plus en plus leurs efforts sur l'examen des recherches d'alignement effectuées par les systèmes d'IA au lieu de générer ces recherches par eux-mêmes. Notre objectif est de former des modèles pour qu'ils soient tellement alignés que nous pouvons décharger presque tout le travail cognitif requis pour la recherche d'alignement.

Il est important de noter que nous n'avons besoin que de systèmes d'IA "plus étroits" qui ont des capacités au niveau humain dans les domaines pertinents pour faire aussi bien que les humains sur la recherche d'alignement. Nous nous attendons à ce que ces systèmes d'IA soient plus faciles à aligner que les systèmes à usage général ou les systèmes beaucoup plus intelligents que les humains.

Les modèles de langage sont particulièrement bien adaptés pour automatiser la recherche d'alignement car ils sont « préchargés » avec beaucoup de connaissances et d'informations sur les valeurs humaines issues de la lecture d'Internet. Hors de la boîte, ils ne sont pas des agents indépendants et ne poursuivent donc pas leurs propres objectifs dans le monde. Pour effectuer des recherches d'alignement, ils n'ont pas besoin d'un accès illimité à Internet. Pourtant, de nombreuses tâches de recherche d'alignement peuvent être exprimées en langage naturel ou en tâches de codage.

Les futures versions de WebGPT, InstruireGPTet Manuscrit peuvent fournir une base en tant qu'assistants de recherche sur l'alignement, mais ils ne sont pas encore suffisamment capables. Bien que nous ne sachions pas quand nos modèles seront suffisamment capables de contribuer de manière significative à la recherche sur l'alignement, nous pensons qu'il est important de commencer à l'avance. Une fois que nous avons formé un modèle qui pourrait être utile, nous prévoyons de le rendre accessible à la communauté externe de recherche sur l'alignement.




Source

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top