Nous montrons qu'un modèle GPT-3 peut apprendre à exprimer l'incertitude sur ses propres réponses en langage naturel, sans utiliser les logits du modèle. Lorsqu'on lui pose une question, le modèle génère à la fois une réponse et un niveau de confiance (par exemple, "confiance à 90 %" ou "confiance élevée"). Ces niveaux correspondent à des probabilités bien calibrées. Le modèle reste également modérément calibré sous le changement de distribution et est sensible à l'incertitude dans ses propres réponses, plutôt que d'imiter des exemples humains. À notre connaissance, c'est la première fois qu'un modèle exprime une incertitude calibrée sur ses propres réponses en langage naturel. Pour tester l'étalonnage, nous introduisons la suite de tâches CalibratedMath. Nous comparons le calibrage de l'incertitude exprimée en mots ("probabilité verbalisée") à l'incertitude extraite des logits du modèle. Les deux types d'incertitude sont capables de généraliser l'étalonnage sous décalage de distribution. Nous fournissons également des preuves que la capacité de GPT-3 à généraliser l'étalonnage dépend de représentations latentes pré-formées qui sont en corrélation avec l'incertitude épistémique sur ses réponses.
Source