Meta utilise l’IA pour générer des vidéos à partir de quelques mots.

Traduction française de l’article “Meta is using AI to generate videos from just a few words“ par Rachel Metz

L’intelligence artificielle est de plus en plus performante pour générer une image en réponse à une poignée de mots, avec des générateurs d’images IA accessibles au public tels que DALL-E 2 et Stable Diffusion. Aujourd’hui, les chercheurs de Meta poussent l’IA un peu plus loin : ils l’utilisent pour concocter des vidéos à partir d’un texte.

Le PDG de Meta, Mark Zuckerberg, a publié jeudi sur Facebook un message sur cette recherche, appelée Make-A-Video, avec un clip de 20 secondes qui compile plusieurs invites textuelles utilisées par les chercheurs de Meta et les (très courtes) vidéos qui en résultent. Les invites comprennent “Un ours en peluche qui peint un autoportrait”, “Un vaisseau spatial qui atterrit sur Mars”, “Un bébé paresseux avec un bonnet tricoté qui essaie de comprendre un ordinateur portable” et “Un robot qui surfe sur une vague dans l’océan”.

Les vidéos de chaque thème ne durent que quelques secondes et montrent généralement ce que le thème suggère (à l’exception du bébé paresseux, qui ne ressemble pas beaucoup à la créature réelle), dans un style assez basse résolution et quelque peu saccadé. Malgré tout, cela montre la nouvelle direction que prend la recherche sur l’IA, les systèmes devenant de plus en plus performants pour générer des images à partir de mots. Cependant, si cette technologie est finalement diffusée à grande échelle, elle soulèvera les mêmes inquiétudes que celles suscitées par les systèmes de conversion de texte en image, à savoir qu’elle pourrait être utilisée pour diffuser des informations erronées par le biais de la vidéo.

La page Web de Make-A-Video présente ces courts clips et d’autres, dont certains ont l’air assez réalistes, comme une vidéo créée en réponse à l’invite “Poissons clowns nageant dans le récif corallien” ou une autre censée montrer “Un jeune couple marchant sous une forte pluie“.

Dans son message sur Facebook, M. Zuckerberg a souligné combien il était difficile de générer une image animée à partir d’une poignée de mots.

“Il est beaucoup plus difficile de générer des vidéos que des photos, car en plus de générer correctement chaque pixel, le système doit également prédire comment ils évolueront dans le temps”, a-t-il écrit.

Un document de recherche décrivant les travaux explique que le projet utilise un modèle d’IA texte-image pour déterminer comment les mots correspondent aux images, et une technique d’IA connue sous le nom d’apprentissage non supervisé – dans laquelle les algorithmes parcourent des données non étiquetées pour y discerner des modèles – pour regarder des vidéos et déterminer à quoi ressemble un mouvement réaliste.

Comme pour les systèmes d’IA massifs et populaires qui génèrent des images à partir de texte, les chercheurs ont souligné que leur modèle d’IA texte-image a été entraîné sur des données Internet, ce qui signifie qu’il a appris “et probablement exagéré les préjugés sociaux, y compris les préjudiciables”, ont écrit les chercheurs. Ils ont noté qu’ils ont filtré les données pour “le contenu NSFW et les mots toxiques”, mais comme les ensembles de données peuvent inclure plusieurs millions d’images et de textes, il peut être impossible de supprimer tous ces contenus.

Zuckerberg a écrit que Meta prévoit de partager le projet Make-A-Video en tant que démo à l’avenir.

Traduction française de l’article “Meta is using AI to generate videos from just a few words“ par Rachel Metz

Laisser un commentaire Annuler la réponse

Voir aussi :