Améliorer le raisonnement mathématique avec la supervision de processus
Améliorer le raisonnement mathématique avec la supervision de processus

Nous avons formé un modèle pour atteindre un nouvel état de l'art dans la résolution de problèmes mathématiques en récompensant chaque étape correcte du raisonnement ("supervision du processus") au lieu de simplement récompenser la réponse finale correcte ("supervision des résultats"). En plus d'améliorer les performances par rapport à la supervision des résultats, la supervision des processus présente également un avantage d'alignement important : elle entraîne directement le modèle à produire une chaîne de pensée approuvée par les humains.


Source

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top