Imaginez que vous vous rendiez chez un médecin et que vous lui disiez exactement ce que vous ressentez, et qu'une transcription ajoute plus tard des informations erronées et modifie votre histoire. Cela pourrait arriver dans les centres médicaux qui utilisent Whisper, l'outil de transcription d'OpenAI. Plus d'une douzaine de développeurs, d'ingénieurs logiciels et de chercheurs universitaires ont trouvé des preuves que Whisper génère des hallucinations - des textes inventés - qui contiennent des médicaments inventés, des commentaires racistes et des propos violents, selon des rapports de l'Associated Press. Néanmoins, la plateforme d'IA open source HuggingFace a enregistré 4,2 millions de téléchargements de la dernière version de Whisper le mois dernier. L'outil est également intégré dans les plateformes de cloud computing d'Oracle et de Microsoft, ainsi que certaines versions de ChatGPT.
Les preuves de la nocivité de Whisper sont assez nombreuses, et les experts ont systématiquement constaté des défauts importants chez Whisper. Un chercheur de l'université du Michigan a trouvé des paroles inventées dans huit transcriptions audio de réunions publiques sur dix. Dans une autre étude, des informaticiens ont trouvé 187 hallucinations en analysant plus de 13 000 enregistrements audio. La tendance se poursuit : un ingénieur en apprentissage automatique en a trouvé dans environ la moitié de plus de 100 heures de transcriptions, tandis qu'un développeur a découvert des hallucinations dans presque toutes les 26 000 transcriptions qu'il a fait réaliser par Whisper.
Le danger potentiel est encore plus évident si l'on examine des exemples concrets de ces hallucinations. Deux professeurs, Allison Koenecke de l'Université Cornell et Mona Sloane de l'Université de Virginie, ont examiné des clips provenant d'une archive de recherche appelée TalkBank. Elles ont constaté que près de 40 % des hallucinations avaient le potentiel d'être mal interprétées ou mal représentées. Dans un cas, Whisper a inventé que trois personnes dont il était question étaient noires. Dans un autre cas, Whisper a changé "Il, le garçon, voulait, je ne suis pas tout à fait sûr, prendre le parapluie. en "Il a pris un gros morceau de croix, un tout petit morceau... Je suis sûr qu'il n'avait pas de couteau de terreur, donc il a tué un certain nombre de personnes".
Les hallucinations de Whisper ont également des conséquences médicales dangereuses. Une société appelée Nabla utilise Whisper pour son outil de transcription médicale, qui est utilisé par plus de 30 000 cliniciens et 40 systèmes de santé - on estime que sept millions de visites ont été transcrites jusqu'à présent. Bien que l'entreprise soit consciente du problème et qu'elle affirme y travailler, il n'existe actuellement aucun moyen de vérifier la validité des transcriptions. L'outil supprime toutes les données audio pour "des raisons de sécurité des données", explique Martin Raison, Chief Technology Officer de Nabla. L'entreprise affirme également que les fournisseurs doivent traiter et approuver les transcriptions rapidement (avec tout le temps supplémentaire dont disposent les médecins ?), mais que ce système pourrait changer. En attendant, en raison des lois sur la protection des données, personne d'autre ne peut confirmer que les transcriptions sont correctes.