D'autres approches existantes utilisent fréquemment des ensembles de données de formation audio-texte plus petits et plus étroitement appariés,[^reference-1] [^reference-2][^reference-3] ou utilisez une pré-formation audio large mais non supervisée.[^reference-4][^reference-5][^reference-6] Parce que Whisper a été formé sur un ensemble de données vaste et diversifié et n'a pas été adapté à un ensemble spécifique, il ne bat pas les modèles spécialisés dans les performances de LibriSpeech, une référence réputée compétitive en matière de reconnaissance vocale. Cependant, lorsque nous mesurons les performances zéro coup de Whisper sur de nombreux ensembles de données divers, nous constatons qu'il est beaucoup plus robuste et fait 50 % moins d'erreurs que ces modèles.
Environ un tiers de l'ensemble de données audio de Whisper n'est pas en anglais, et il est alternativement chargé de transcrire dans la langue d'origine ou de traduire en anglais. Nous trouvons que cette approche est particulièrement efficace pour apprendre la traduction de la parole au texte et surpasse le SOTA supervisé sur CoVoST2 vers la traduction en anglais zéro-shot.
Source