GPT-4 avec vision (GPT-4V) permet aux utilisateurs de demander à GPT-4 d'analyser les entrées d'image fournies par l'utilisateur. Il s'agit de la dernière fonctionnalité que nous rendons largement disponible. L’intégration de modalités supplémentaires (telles que les entrées d’images) dans les grands modèles linguistiques (LLM) est considérée par certains comme une frontière clé dans la recherche et le développement en intelligence artificielle. Les LLM multimodaux offrent la possibilité d'étendre l'impact des systèmes uniquement linguistiques avec de nouvelles interfaces et capacités, leur permettant de résoudre de nouvelles tâches et d'offrir de nouvelles expériences à leurs utilisateurs. Dans cette carte système, nous analysons les propriétés de sécurité du GPT-4V. Notre travail sur la sécurité pour GPT-4V s'appuie sur le travail effectué pour GPT-4 et nous approfondissons ici les travaux d'évaluation, de préparation et d'atténuation effectués spécifiquement pour les entrées d'images.
Source