Microsoft Research Asia a récemment dévoilé VASA-1, un modèle d’intelligence artificielle capable de transformer une simple photo en vidéo animée.
Microsoft a donc décidé de se transformer en Skynet et a tiré sur toutes les ficelles liées à l’IA. Nouveauté du moment, Vasa-1. Cette technologie, présentée par Microsoft Research Asia utilise un fragment audio pour donner vie à une image. Le modèle est conçu pour créer des avatars vidéo réalistes, ce qui peut révolutionner la manière dont nous interagissons avec les médias numériques. C’est surtout inquiétant de se dire que des chercheurs continuent de travailler sur des solutions qui seront rapidement détournées. La régulation concernant l’IA étant moins draconienne en Asie qu’en Europe et aux USA, voilà peut-être pourquoi nos apprentis sorciers de l’IA se sont penchés sur cette possibilité.
Applications potentielles de vasa-1
Selon le rapport de recherche accompagnant la présentation du modèle, VASA-1 ouvre la possibilité de participer à des réunions virtuelles avec des avatars qui reproduisent fidèlement les comportements humains lors d’une conversation. Ca fera beaucoup rire cette comptable qui a été piégée, voilà quelques semaines, dans un tchat vidéo par des pirates et les avatars générés par l’IA. Bref, Vasa-1 soulève des questions sur son utilisation pour manipuler des vidéos afin de faire dire n’importe quoi à n’importe qui.
Comment fonctionne le modèle vasa-1 ?
VASA-1 repose sur l’apprentissage automatique pour analyser une photo statique et générer des vidéos animées réalistes. Le modèle ne clone pas les voix mais anime l’avatar en fonction des sons existants. Il peut ajouter des mouvements de tête, des tics faciaux, et d’autres nuances comportementales qui rendent l’animation étonnamment réelle. Un paradis pour deepfake, des vidéos malveillantes générées par l’IA ?
Le défi des deepfakes
La création de deepfakes, ou hyper-trucages, n’est pas une nouveauté. Cependant, l’approche de VASA-1, qui utilise une seule photo pour y incorporer des émotions et des comportements, est relativement nouvelle. Le modèle se distingue également par une excellente synchronisation labiale et la représentation de mouvements réalistes. Pour son développement, Microsoft Research a utilisé VoxCeleb2, un vaste ensemble de données composé de clips vidéo de célébrités issus de YouTube. Les célébrités ont-elles donné leurs accords pour que leur image et leur voix soient exploitées ? Dans sa démonstration Microsoft Asia a utilisé des portraits générés par StyleGAN2 ou DALL·E-3. « Il s’agit uniquement d’une démonstration de recherche et il n’y a pas de plan de sortie de produit ou d’API. » confirment les 9 chercheurs.
Le potentiel d’abus de VASA-1 est une préoccupation majeure, ce qui explique pourquoi Microsoft a décidé de ne pas publier le code du modèle pour le moment. En combinaison avec la technologie de clonage vocal, des individus mal intentionnés pourraient l’utiliser pour falsifier des vidéos de réunions, menant à des tentatives d’extorsion ou à la propagation de fausses informations. Bref à suivre ! « I’ll be back » dirait même une création de Skynet !