Google dévoile l'IA générative Lumiere pour créer des images et des vidéos plus réalistes à partir de textes

Google dévoile Lumiere, le dernier né de l'IA générative qui crée des clips vidéo réalistes à partir de textes. (Source : Google Research)

Google a dévoilé Lumiere, le dernier cri en matière de génération réaliste de texte à l'image et de texte à la vidéo grâce à l'apprentissage automatique. L'une des principales innovations réside dans la capacité à créer des mouvements réalistes tels que la marche, ce que les IA génératives actuelles ont du mal à faire. Pour ce faire, le logiciel crée toutes les images vidéo en une seule fois plutôt que d'utiliser des images clés et de s'entraîner à apprendre comment les objets en mouvement doivent apparaître.

David Chien (traduit par Ninh Duy), Publié 01/31/2024 🇺🇸 🇩🇪 ...

Google a dévoilé Lumiere, l'état de l'art en matière d'IA générative texte-image et vidéo réaliste. Le logiciel améliore considérablement le mouvement en utilisant une nouvelle approche de la génération d'images vidéo qui crée toutes les images en une seule fois afin d'atténuer les erreurs de mouvement.

L'IA générative d'images crée des images à partir de textes. L'une des clés de cette méthode est l'énorme quantité d'images et de vidéos en ligne disponibles pour la formation. Le développement de méthodes permettant d'associer tous les mots d'une langue les uns aux autres par le biais de vecteurs en est une autre. Ainsi, l'IA peut comprendre qu'une paire de mots, ou une phrase, "je suis" est plus probable que "je suis unilatéralement". L'IA de création d'images, telle que la diffusion stable, associe des mots à des images d'objets. Cette IA comprend que les mots "résidence royale" sont plus étroitement associés à une image de "château" qu'à une image de "maison".

L'IA vidéo générative étend l'IA d'image pour créer des vidéos à partir de texte. Les concurrents de Lumiere créent d'abord des images clés, puis les images intermédiaires. C'est comme si un maître animateur dessinait les images du début et de la fin d'un tir de basket, puis demandait à un assistant de dessiner les images entre les deux. Le problème est que des erreurs de mouvement se produisent souvent parce que les images intermédiaires ne sont pas dessinées correctement. Lumiere contourne ce problème en créant toutes les images vidéo sans images clés. De plus, Lumiere est formé pour savoir à quoi ressemblent les objets en mouvement à différentes tailles d'image, ce qui donne à ses vidéos un aspect supérieur.

Techniquement, Lumiere utilise des modèles probabilistes de diffusion pour générer des images couplées à un U-Net spatio-temporel, une architecture U-net avec une mise à l'échelle temporelle ascendante et descendante et des blocs d'attention ajoutés à la mise à l'échelle habituelle de la résolution de l'image. La réduction de l'échelle temporelle en même temps que la résolution réduit considérablement la charge de travail informatique, tandis que l'augmentation de l'échelle, associée à un modèle de super-résolution spatiale tenant compte du temps, génère une sortie à haute résolution. La segmentation des images étant nécessaire en raison des limitations de mémoire, la multidiffusion est utilisée à travers les limites des segments d'images qui se chevauchent afin d'atténuer les artefacts de mouvement temporel.

Lumiere peut être couplé à d'autres IA pour créer une gamme plus large de résultats. Cela inclut :

Cinémagraphes - une section d'une image est animée
Inpainting - un objet dans une vidéo est remplacé par un autre
Génération stylisée - l'apparence est recréée dans un autre style artistique
Image-vidéo - une image souhaitée est animée
Vidéo à vidéo - les vidéos sont recréées dans un autre style artistique

La durée des vidéos est limitée à 5 secondes et la possibilité de créer des transitions vidéo et des angles de caméra multiples est inexistante. Les lecteurs désireux d'expérimenter l'IA générative sur leur ordinateur de bureau devraient s'équiper d'une carte vidéo puissante(comme celle-ci sur Amazon) pour obtenir les meilleures performances lors de l'entraînement.