Nous avons formé un modèle pour atteindre un nouvel état de l'art dans la résolution de problèmes mathématiques en récompensant chaque étape correcte du raisonnement ("supervision du processus") au lieu de simplement récompenser la réponse finale correcte ("supervision des résultats"). En plus d'améliorer les performances par rapport à la supervision des résultats, la supervision des processus présente également un avantage d'alignement important : elle entraîne directement le modèle à produire une chaîne de pensée approuvée par les humains.
Source