Le domaine de l’intelligence artificielle a longtemps été paralysé par l’absence de réponse à sa question la plus fondamentale : qu’est-ce que l’intelligence, de toute façon ? Les IA telles que GPT-4 ont mis en évidence cette incertitude : certains chercheurs pensent que les modèles GPT montrent des lueurs d’intelligence réelle, mais d’autres ne sont pas d’accord.
Pour répondre à ces arguments, nous avons besoin de tâches concrètes pour cerner et tester la notion d'intelligence, affirment les chercheurs du SFI Arseny Moskvichev, Melanie Mitchell et Victor Vikram Odouard dans un nouveau papier dont la publication est prévue dans Transactions sur la recherche sur l'apprentissage automatiqueet posté sur le arXiv serveur de préimpression. C’est exactement ce que proposent les auteurs et constatent que même les IA les plus avancées sont encore loin derrière les humains dans leur capacité à abstraire et à généraliser les concepts.
L'équipe a créé des puzzles d'évaluation, basés sur un domaine développé par le chercheur de Google François Chollet, qui se concentrent sur la création d'analogies visuelles, capturant des concepts de base tels que dessus, dessous, centre, intérieur et extérieur. Les candidats humains et IA ont vu plusieurs modèles démontrant un concept, puis ont été invités à appliquer ce concept à une image différente. La figure ci-dessous montre des tests de la notion de similitude.
Ces énigmes visuelles étaient très simples pour les humains : par exemple, ils obtenaient la notion de similitude correcte dans 88 % des cas. Mais GPT-4 a eu du mal, ne réussissant que 23 % de ces énigmes. Les chercheurs concluent donc qu’actuellement, les programmes d’IA sont encore faibles en matière de raisonnement visuel abstrait.
"Nous raisonnons beaucoup par analogies, c'est pourquoi c'est une question si intéressante", explique Moskvichev. L'utilisation par l'équipe de nouveaux puzzles visuels a permis de garantir que les machines ne les avaient jamais rencontrés auparavant. GPT-4 a été formé sur de grandes parties d'Internet, il était donc important d'éviter tout ce qu'il aurait déjà pu rencontrer, pour être certain qu'il ne se contentait pas de répéter un texte existant plutôt que de démontrer sa propre compréhension. C'est pourquoi les résultats récents, comme la capacité d'une IA à obtenir de bons résultats à un examen du barreau, ne constituent pas un bon test de sa véritable intelligence.
L’équipe estime qu’à mesure que le temps passe et que les algorithmes d’IA s’améliorent, le développement de routines d’évaluation deviendra de plus en plus difficile et important. Plutôt que d’essayer de créer un seul test de l’intelligence artificielle, nous devrions concevoir des ensembles de données plus soigneusement organisés et axés sur des facettes spécifiques de l’intelligence. "Plus nos algorithmes s'améliorent, plus il est difficile de déterminer ce qu'ils peuvent et ne peuvent pas faire", explique Moskvichev. "Nous devons donc être très réfléchis dans le développement d'ensembles de données d'évaluation."
Plus d'information: Arseny Moskvichev et al, The ConceptARC Benchmark: Evaluating Understanding and Generalization in the ARC Domain, arXiv (2023). DOI : 10.48550/arxiv.2305.07141
Citation: Étude : Analogies visuelles pour l'IA (26 septembre 2023) récupérée le 1er octobre 2023 sur
Ce document est soumis au droit d'auteur. En dehors de toute utilisation équitable à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.
Source