Entraînement efficace des modèles linguistiques pour combler le milieu
Entraînement efficace des modèles linguistiques pour combler le milieu

Nous montrons que les modèles de langage autorégressifs peuvent apprendre à remplir le texte après avoir appliqué une transformation simple à l'ensemble de données, qui déplace simplement une plage de texte du milieu d'un document à sa fin. Bien que cette augmentation de données ait suscité beaucoup d'intérêt ces dernières années, nous fournissons de nombreuses preuves que la formation de modèles avec une grande fraction de données transformées de cette manière ne nuit pas à la capacité générative originale de gauche à droite, telle que mesurée par la perplexité et les évaluations d'échantillonnage à travers une large gamme d'échelles. Compte tenu de l'utilité, de la simplicité et de l'efficacité des modèles de formation pour remplir le milieu (FIM), nous suggérons que les futurs modèles de langage autorégressifs soient formés avec FIM par défaut. À cette fin, nous exécutons une série d'ablations sur des hyperparamètres clés, tels que la fréquence de transformation des données, la structure de la transformation et la méthode de sélection de la durée de remplissage. Nous utilisons ces ablations pour prescrire des paramètres par défaut solides et les meilleures pratiques pour former des modèles FIM. Nous avons publié notre meilleur modèle de remplissage formé avec les meilleures pratiques de notre API et publié nos références de remplissage pour faciliter les recherches futures.




Source

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top