Nous lançons un classificateur formé pour faire la distinction entre le texte écrit par l'IA et écrit par l'homme.
Nous avons formé un classificateur pour faire la distinction entre le texte écrit par un humain et le texte écrit par des IA de divers fournisseurs. Bien qu'il soit impossible de détecter de manière fiable tout le texte écrit par l'IA, nous pensons que de bons classificateurs peuvent éclairer les atténuations des fausses allégations selon lesquelles le texte généré par l'IA a été écrit par un humain : par exemple, exécuter campagnes de désinformation automatiséesen utilisant des outils d'IA pour la malhonnêteté académique et en positionnant un chatbot d'IA comme un humain.
Notre classificateur n'est pas entièrement fiable. Dans nos évaluations sur un « ensemble de défis » de textes anglais, notre classificateur identifie correctement 26 % du texte écrit par l'IA (vrais positifs) comme « probablement écrit par l'IA », tout en étiquetant incorrectement le texte écrit par l'homme comme écrit par l'IA. 9 % des l'heure (faux positifs). La fiabilité de notre classificateur s'améliore généralement à mesure que la longueur du texte d'entrée augmente. Par rapport à notre classificateur précédemment publiéce nouveau classificateur est nettement plus fiable sur le texte des systèmes d'IA plus récents.
Nous rendons ce classificateur accessible au public pour obtenir des commentaires sur l'utilité d'outils imparfaits comme celui-ci. Notre travail sur la détection de texte généré par l'IA se poursuivra et nous espérons partager des méthodes améliorées à l'avenir.
Essayez vous-même notre classificateur de travaux en cours :
Limites
Notre classificateur a un certain nombre de limitations importantes. Il ne doit pas être utilisé comme un outil de prise de décision principalmais plutôt en complément d'autres méthodes de détermination de la source d'un morceau de texte.
- Le classificateur est très peu fiable sur des textes courts (inférieurs à 1 000 caractères). Des textes encore plus longs sont parfois mal étiquetés par le classifieur.
- Parfois, le texte écrit par l'homme sera incorrectement mais en toute confiance étiqueté comme écrit par l'IA par notre classifieur.
- Nous vous recommandons d'utiliser le classificateur uniquement pour le texte en anglais. Il fonctionne nettement moins bien dans d'autres langages et il n'est pas fiable sur le code.
- Un texte très prévisible ne peut pas être identifié de manière fiable. Par exemple, il est impossible de prédire si une liste des 1 000 premiers nombres premiers a été écrite par l'IA ou par des humains, car la bonne réponse est toujours la même.
- Le texte écrit par l'IA peut être modifié pour échapper au classificateur. Les classificateurs comme le nôtre peuvent être mis à jour et recyclés en fonction des attaques réussies, mais il n'est pas clair si la détection présente un avantage à long terme.
- Les classificateurs basés sur les réseaux de neurones sont connus pour être mal calibrés en dehors de leurs données d'apprentissage. Pour les entrées qui sont très différentes du texte dans notre ensemble d'apprentissage, le classifieur est parfois extrêmement confiant dans une prédiction erronée.
Formation du classificateur
Notre classificateur est un modèle de langage affiné sur un ensemble de données de paires de texte écrit par l'homme et de texte écrit par l'IA sur le même sujet. Nous avons collecté cet ensemble de données à partir de diverses sources que nous pensons avoir été écrites par des humains, telles que les données de pré-entraînement et les démonstrations humaines sur les invites soumises à InstruireGPT. Nous avons divisé chaque texte en une invite et une réponse. Sur ces invites, nous avons généré des réponses à partir d'une variété de modèles de langage différents formés par nous et d'autres organisations. Pour notre application Web, nous ajustons le seuil de confiance pour maintenir le taux de faux positifs très bas ; en d'autres termes, nous ne marquons le texte comme probablement écrit par l'IA que si le classifieur est très confiant.
Impact sur les éducateurs et appel à contribution
Nous reconnaissons que l'identification du texte écrit par l'IA a été un point de discussion important parmi les éducateurs, et il est tout aussi important de reconnaître les limites et les impacts des classificateurs de texte générés par l'IA dans la salle de classe. Nous avons développé un ressource préliminaire sur l'utilisation de ChatGPT pour les enseignants, qui décrit certaines des utilisations et les limitations et considérations associées. Bien que cette ressource soit axée sur les éducateurs, nous nous attendons à ce que notre classificateur et les outils de classificateur associés aient un impact sur les journalistes, les chercheurs en més/désinformation et d'autres groupes.
Nous nous engageons avec des éducateurs aux États-Unis pour savoir ce qu'ils voient dans leurs salles de classe et pour discuter des capacités et des limites de ChatGPT, et nous continuerons à élargir notre portée au fur et à mesure que nous apprenons. Ce sont des conversations importantes à avoir dans le cadre de notre mission qui consiste à déployer de grands modèles linguistiques en toute sécurité, en contact direct avec les communautés affectées.
Si vous êtes directement touché par ces problèmes (y compris, mais sans s'y limiter, les enseignants, les administrateurs, les parents, les élèves et les prestataires de services éducatifs), veuillez nous faire part de vos commentaires en utilisant ce formulaire. Rétroaction directe sur le ressource préliminaire est utile, et nous accueillons également toutes les ressources que les éducateurs développent ou ont trouvées utiles (par exemple, les directives de cours, les mises à jour du code d'honneur et des politiques, les outils interactifs, les programmes d'alphabétisation en IA).
Source