ByteDance, le groupe à l’origine de TikTok, a récemment révélé OmniHuman-1, un modèle d’intelligence artificielle capable de créer des vidéos hyperréalistes à partir d’une simple photo. Cette avancée marque un tournant dans la création de contenus vidéo générés par IA, mais soulève également des préoccupations éthiques et sécuritaires majeures.
Une avancée technologique sans précédent
ByteDance a franchi une étape significative dans la génération de vidéos par intelligence artificielle avec la présentation d’OmniHuman-1. Ce modèle d’IA permet de transformer une simple image fixe en une vidéo animée, dans laquelle la personne représentée peut parler, danser ou même donner une conférence. Entraîné sur plus de 18 700 heures de données vidéo, OmniHuman-1 est capable de reproduire des mouvements du corps entier et des expressions faciales avec un réalisme impressionnant.
Contrairement aux technologies précédentes, qui se limitaient à animer uniquement les visages ou le buste, OmniHuman-1 peut générer des vidéos dans des contextes dynamiques. Ainsi, il est capable de simuler des scènes où une personne danse ou manipule des objets, rendant les résultats plus variés et détaillés.
Le fonctionnement technique du modèle
OmniHuman-1 utilise une approche innovante pour générer des vidéos. Après avoir analysé une image fixe accompagnée d’un fichier audio, l’IA commence par compresser les données d’entrée avant de créer progressivement les mouvements à l’aide d’un système de raffinement comparatif. Ce processus permet de synchroniser avec précision les gestes, les expressions faciales et les discours.
The future of human video generation is here.
Watch as [OmniHuman-1] turns text into a hyper-realistic talking human in seconds! No actors, no cameras—just pure AI magic. pic.twitter.com/MOid3aKb90— OmniHuman-1 AI (@OmniHuman1AI) February 5, 2025
Les démonstrations d’OmniHuman-1 ont impressionné les chercheurs, qui ont notamment montré des vidéos d’Einstein virtuel en train de donner un cours de physique ou de fausses conférences TED. Cependant, malgré ses capacités, la technologie présente encore certaines limites. Par exemple, des images à faible résolution ou des poses trop complexes peuvent réduire la qualité des vidéos générées. Une des démonstrations a même révélé une distorsion des doigts d’une main tenant un verre de vin, rappelant que l’illusion n’est pas encore parfaite.
Les risques de la technologie pour la sécurité et l’éthique
L’émergence d’OmniHuman-1 soulève d’importantes préoccupations concernant la sécurité et l’éthique. Des incidents, comme le vol de 25,6 millions de dollars en février 2025 par un escroc utilisant un deepfake lors d’une visioconférence, ont mis en évidence les dangers de cette technologie. En effet, les experts alertent sur les risques de vol d’identité et de manipulation de l’opinion publique. Cette capacité à générer des discours politiques et des contenus trompeurs pourrait faciliter la propagation de la désinformation à grande échelle.
Afin de faire face à ces défis, plusieurs pays ont commencé à adopter des législations pour encadrer l’utilisation des deepfakes. Aux États-Unis, le DEEPFAKES Accountability Act impose un marquage numérique pour identifier les contenus générés par IA. De son côté, la Chine a renforcé ses règles en introduisant les Deep Synthesis Provisions, interdisant la création de deepfakes sans le consentement préalable des individus concernés. En Europe, l’AI Act, qui est entré en vigueur en janvier 2025, exige que tout contenu généré par IA soit clairement étiqueté et accompagné d’informations sur les techniques utilisées.
OmniHuman-1 marque une avancée majeure dans le domaine des vidéos générées par IA, avec un potentiel considérable pour la création de contenus. Cependant, ses implications éthiques et sécuritaires ne peuvent être ignorées. Face aux risques de manipulation et de désinformation, la mise en place de régulations adéquates est essentielle pour encadrer l’usage de cette technologie.
Source : Tech Radar