Améliorer le raisonnement mathématique avec la supervision de processus

mai 31, 2023

improving-mathematical-reasoning-with-process-supervision.jpg

Nous avons formé un modèle pour atteindre un nouvel état de l'art dans la résolution de problèmes mathématiques en récompensant chaque étape correcte du raisonnement ("supervision du processus") au lieu de simplement récompenser la réponse finale correcte ("supervision des résultats"). En plus d'améliorer les performances par rapport à la supervision des résultats, la supervision des processus présente également un avantage d'alignement important : elle entraîne directement le modèle à produire une chaîne de pensée approuvée par les humains.

Source

Category : Génération Texte IA

Laisser un commentaire Annuler la réponse

Quick Links

Get in Touch