Meta a présenté vendredi sa nouvelle interface d’intelligence artificielle (IA) générative Movie Gen, qui permet de créer des vidéos sonorisées à partir de texte ou d’images, comme le proposent déjà d’autres pionniers de l’IA.
Movie Gen est le troisième modèle de génération d’images de Meta après une première mouture en juillet 2022 et une deuxième en novembre 2023.
Aucune des trois interfaces n’a été rendue accessible au public.
Elles sont testées à ce stade par des créateurs et des réalisateurs qui évaluent Movie Gen et contribuent à améliorer le logiciel.
Sollicité concernant la date de mise en ligne de Movie Gen, Meta n’a pas donné suite dans l’immédiat. Outre des vidéos de démonstration, le groupe a publié vendredi un papier de recherche décrivant son modèle.
Les modèles de langage sont des logiciels appuyés sur d’immenses bases de données, qui leur permettent de générer du contenu, texte, image, vidéo, son ou code informatique en réponse à une demande formulée en langage courant.
Movie Gen peut produire une vidéo à partir d’une requête (prompt) écrite, mais aussi sur la base d’une simple photo.
Il offre aussi une fonctionnalité d’édition d’une vidéo existante.
Le modèle propose également d’ajouter une bande-son à la vidéo, sur le même principe de demande en langage courant.
Dans la petite séquence publiée sur le site de Meta, une phrase suffit pour habiller la vidéo d’un quad roulant dans le désert avec un son de moteur rugissant et un air de guitare.
Meta laisse entendre qu’une déclinaison de Movie Gen pourrait être un jour utilisable via ses réseaux sociaux Instagram et Facebook, ou encore en passant par la messagerie WhatsApp.
Le groupe prend notamment l’exemple d’une vidéo qui serait éditée grâce à des indications en langage courant avant d’être publiée sur les réseaux sociaux.
Meta n’est pas le premier acteur de l’IA a mettre au point un modèle de génération de vidéo.
Runway, de la start-up Runway AI, permet, à partir d’une demande écrite, de créer un plan de quelques secondes, de transformer une série d’images fixes en courte vidéo, ou de remodeler une séquence existante pour transformer, par exemple, une photo en un tableau.
En février, OpenAI a également lancé sa version, baptisée Sora, tandis que Google travaille à un modèle appelé Lumiere.
Meta affirme que Movie Gen «est supérieur à des modèles similaires de l’industrie lorsque sa production est évaluée par des humains».