Dans l'apprentissage par renforcement à partir de la rétroaction humaine, il est courant d'optimiser par rapport à un modèle de récompense formé pour prédire les préférences humaines. Étant donné que le modèle de récompense est un proxy imparfait, une optimisation excessive de sa valeur peut entraver les performances de la vérité terrain, conformément à la loi de Goodhart. Cet effet a été fréquemment observé, mais pas soigneusement mesuré en raison du coût de la collecte de données sur les préférences humaines. Dans ce travail, nous utilisons une configuration synthétique dans laquelle un modèle de récompense "gold-standard" fixe joue le rôle des humains, fournissant des étiquettes utilisées pour former un modèle de récompense proxy. Nous étudions comment le score du modèle de récompense en or change lorsque nous optimisons par rapport au modèle de récompense par procuration en utilisant soit l'apprentissage par renforcement, soit l'échantillonnage au meilleur des n. Nous constatons que cette relation suit une forme fonctionnelle différente selon la méthode d'optimisation et que, dans les deux cas, ses coefficients évoluent en douceur avec le nombre de paramètres du modèle de récompense. Nous étudions également l'effet sur cette relation de la taille de l'ensemble de données du modèle de récompense, du nombre de modèles de récompense et de paramètres de politique, et du coefficient de la pénalité KL ajoutée à la récompense dans la configuration de l'apprentissage par renforcement. Nous explorons les implications de ces résultats empiriques pour des considérations théoriques dans l'alignement de l'IA.
Source