Les modèles de langage peuvent expliquer les neurones dans les modèles de langage
Les modèles de langage peuvent expliquer les neurones dans les modèles de langage

Bien que la grande majorité de nos explications obtiennent de mauvais résultats, nous pensons que nous pouvons désormais utiliser des techniques de ML pour améliorer encore notre capacité à produire des explications. Par exemple, nous avons constaté que nous pouvions améliorer les scores en :

  • Itérer sur les explications. Nous pouvons augmenter les scores en demandant à GPT-4 de proposer des contre-exemples possibles, puis en révisant les explications à la lumière de leurs activations.
  • Utiliser des modèles plus grands pour donner des explications. Le score moyen augmente à mesure que les capacités du modèle explicatif augmentent. Cependant, même GPT-4 donne de pires explications que les humains, suggérant une marge d'amélioration.
  • Modification de l'architecture du modèle expliqué. Les modèles de formation avec différentes fonctions d'activation ont amélioré les scores d'explication.

Nous mettons en open source nos ensembles de données et nos outils de visualisation pour les explications écrites en GPT-4 des 307 200 neurones du GPT-2, ainsi que le code d'explication et de notation à l'aide de modèles accessibles au public sur l'API OpenAI. Nous espérons que la communauté des chercheurs développera de nouvelles techniques pour générer des explications plus performantes et de meilleurs outils pour explorer GPT-2 à l'aide d'explications.

Nous avons trouvé plus de 1 000 neurones avec des explications qui ont obtenu au moins 0,8, ce qui signifie que selon GPT-4, ils expliquent la plupart du comportement d'activation du neurone. La plupart de ces neurones bien expliqués ne sont pas très intéressants. Cependant, nous avons également trouvé de nombreux neurones intéressants que GPT-4 ne comprenait pas. Nous espérons qu'à mesure que les explications s'amélioreront, nous pourrons rapidement découvrir une compréhension qualitative intéressante des calculs des modèles.




Source

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top