Internet contient une énorme quantité de vidéos accessibles au public dont nous pouvons tirer des enseignements. Vous pouvez regarder une personne faire une présentation magnifique, un artiste numérique dessiner un magnifique coucher de soleil et un joueur de Minecraft construire une maison complexe. Cependant, ces vidéos ne fournissent qu'un enregistrement de quoi arrivé mais pas précisément comment il a été atteint, c'est-à-dire que vous ne connaîtrez pas la séquence exacte des mouvements de la souris et des touches enfoncées. Si nous voulons construire à grande échelle modèles de fondation dans ces domaines comme nous l'avons fait dans le langage avec Google Tagce manque d'étiquettes d'action pose un nouveau défi qui n'existe pas dans le domaine du langage, où les « étiquettes d'action » sont simplement les mots suivants dans une phrase.
Afin d'utiliser la richesse des données vidéo non étiquetées disponibles sur Internet, nous introduisons une nouvelle méthode d'apprentissage par imitation semi-supervisée : Video PreTraining (VPT). Nous commençons par collecter un petit ensemble de données auprès des sous-traitants où nous enregistrons non seulement leur vidéo, mais également les actions qu'ils ont entreprises, qui dans notre cas sont les pressions sur les touches et les mouvements de la souris. Avec ces données, nous formons un modèle de dynamique inverse (IDM), qui prédit l'action entreprise à chaque étape de la vidéo. Il est important de noter que l'IDM peut utiliser le passé et futur informations pour deviner l'action à chaque étape. Cette tâche est beaucoup plus facile et nécessite donc beaucoup moins de données que la tâche de clonage comportemental consistant à prédire les actions données images vidéo passées uniquement, ce qui nécessite de déduire ce que la personne veut faire et comment y parvenir. Nous pouvons ensuite utiliser l'IDM formé pour étiqueter un ensemble de données beaucoup plus important de vidéos en ligne et apprendre à agir via le clonage comportemental.
Source