Avec des encouragements, les grands modèles de langage conçoivent des invites plus efficaces
Avec des encouragements, les grands modèles de langage conçoivent des invites plus efficaces

Avec des encouragements, les grands modèles de langage conçoivent des invites plus efficaces
Un aperçu du cadre OPRO. Étant donné la méta-invite en entrée, le LLM génère de nouvelles solutions pour la fonction objectif, puis les nouvelles solutions et leurs scores sont ajoutés à la méta-invite pour l'étape d'optimisation suivante. La méta-invite contient les paires solution-score obtenues tout au long du processus d'optimisation, ainsi qu'une description en langage naturel de la tâche et (en optimisation rapide) quelques exemples de la tâche. Voir la figure 3 pour un exemple de méta-invite pour l'optimisation des invites. Crédit: arXiv (2023). DOI : 10.48550/arxiv.2309.03409

L’invite est l’un des principaux facteurs d’efficacité des tâches de modèle de langage étendu (LLM).

Pour être plus efficace, une invite doit être claire et bien adaptée à la tâche.

Les chercheurs consacrent des ressources importantes pour garantir que les invites sont optimisées afin d’obtenir le meilleur résultat. Une mauvaise utilisation des mots-clés, une formulation maladroite, des instructions vagues ou un manque de contexte approprié peuvent dégrader la qualité des résultats.

Les programmeurs informatiques essaient toujours de trouver de meilleures façons de formuler des invites. Des chercheurs de DeepMind de Google ont récemment envisagé une nouvelle approche : et si de grands modèles de langage aidaient à créer des invites ?

Ils ont mis au point un processus appelé OPRO, Optimization by PROmpting.

Dans un article publié le 7 septembre sur le serveur de pré-impression arXiv, Chengrun Yang, chercheur chez DeepMind, a expliqué qu'OPRO est « une approche simple et efficace » pour attribuer des tâches d'optimisation aux LLM en langage naturel.

"À chaque étape d'optimisation", a déclaré Yang, "le LLM génère de nouvelles solutions à partir de l'invite contenant les solutions générées précédemment avec leurs valeurs, puis les nouvelles solutions sont évaluées et ajoutées à l'invite pour l'étape d'optimisation suivante."

De telles solutions itératives sont couramment utilisées dans les tâches d’optimisation, mais la formulation a généralement été conçue par des humains qui s’appuient fortement sur des modèles mathématiques.

OPRO capitalise sur la nouvelle capacité des LLM à comprendre les instructions en langage naturel.

Il crée des invites, définissant clairement le défi, et fournit des exemples de problèmes similaires et des instructions pour une approche itérative d'une solution. Autrement dit, comme le LLM propose des solutions pour chaque étape du processus d'optimisation, l'invite est modifiée pour intégrer ces résultats. Le processus est répété jusqu'à ce qu'une solution optimale soit atteinte.

« L'optimisation avec les LLM permet une adaptation rapide aux différentes tâches en modifiant la description du problème dans l'invite, et le processus d'optimisation peut être personnalisé en ajoutant des instructions pour spécifier les propriétés souhaitées des solutions », a déclaré Yang.

Les chercheurs ont testé leur approche sur deux types de défis courants : la régression linéaire et le problème du voyageur de commerce. Les résultats étaient prometteurs, mais avec une touche supplémentaire : ils ont constaté une amélioration significative.

L'approche linéaire est un modèle statistique affichant une relation entre des variables textuelles et numériques. Il peut être utilisé dans les prévisions financières, par exemple, en prédisant les cours des actions sur la base des informations de Wall Street, ou il peut recommander des films Netflix sur la base des critiques de programmes d'un utilisateur.

Le scénario du voyageur de commerce est un problème d'optimisation classique qui fournit une liste de villes, puis détermine l'itinéraire le plus court et le plus rapide qu'un vendeur devrait emprunter pour visiter chaque ville sans répétition.

OPRO a réalisé des performances admirables. Il a obtenu des résultats « comparables à ceux de certains algorithmes heuristiques fabriqués à la main », a déclaré Yang.

"Mais avec un coup de pouce supplémentaire, les invites optimisées surpassent[ed] des invites conçues par l'homme… avec une marge significative, parfois supérieure à 50 %", a déclaré Yang.

Quel a été le coup de pouce supplémentaire ?

Encouragement.

L'équipe DeepMind a découvert que lorsque des phrases exprimant des encouragements étaient jointes aux invites, de meilleurs résultats étaient obtenus.

Ces expressions comprenaient : « Respirez profondément et travaillez sur ce problème étape par étape », « Résolvons cela étape par étape pour être sûr d'avoir la bonne réponse » et « Calculons notre chemin. à la solution."

Les chercheurs n'ont pas expliqué pourquoi de telles expressions de soutien donnaient de meilleurs résultats, même si l'on peut supposer que les LLM ont été formés sur des données contenant de nombreuses instances des expressions associées à un examen et un traitement minutieux des données pertinentes.

« L'optimisation est omniprésente », a déclaré Yang. "Bien que les algorithmes basés sur les dérivés soient des outils puissants pour résoudre divers problèmes, l'absence de gradient impose des défis à de nombreuses applications du monde réel… Avec l'avancement des techniques d'invite, les LLM ont atteint des performances impressionnantes dans une variété de domaines."

Plus d'information: Chengrun Yang et al, Grands modèles linguistiques comme optimiseurs, arXiv (2023). DOI : 10.48550/arxiv.2309.03409

Informations sur la revue : arXiv

© 2023 Réseau Science X

Citation: Avec des encouragements, les grands modèles de langage conçoivent des invites plus efficaces (21 septembre 2023) récupéré le 24 septembre 2023 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation équitable à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.




Source

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top