Un nouvel outil d'IA open-source permet de générer des vidéos beaucoup plus longues et plus cohérentes

Une image de girafe générée par l'IA

Des chercheurs de l'École polytechnique fédérale de Lausanne (EPFL) ont mis au point un nouveau système appelé Stable Video Infinity (SVI) pour remédier à la dérive des modèles de génération vidéo.

Chibuike Okpara (traduit par DeepL / Ninh Duy), Publié 02/10/2026 🇺🇸 🇪🇸 ...

AI Science Open Source

Si vous avez utilisé des modèles de génération vidéo, il y a une chose que vous constaterez partout : ils sont limités à des clips courts, généralement entre 5 et 20 secondes. Cette limitation est due à ce que l'on appelle la "dérive" La dérive fait que les scènes et les personnages perdent de plus en plus leurs caractéristiques image par image, ce qui donne un résultat incohérent au fil du temps.

Pour résoudre ce problème, des chercheurs du laboratoire Visual Intelligence for Transportation (VITA) de l'EPFL ont mis au point une nouvelle méthode d'apprentissage appelée "recyclage des erreurs" Au lieu d'écarter les défauts et les déformations qui se produisent naturellement lors de la génération, cette approche les réintègre intentionnellement dans le modèle.

Le professeur Alexandre Alahi compare ce processus à la "formation d'un pilote par temps agité plutôt que dans un ciel bleu dégagé" En apprenant de ses propres erreurs, l'IA devient suffisamment robuste pour se stabiliser lorsque des erreurs apparaissent inévitablement, plutôt que de sombrer dans le hasard.

Cette méthode est à la base du nouveau système Stable Video Infinity (SVI). Contrairement aux modèles actuels qui s'effondrent souvent au bout de 30 secondes, SVI peut générer des vidéos cohérentes et de haute qualité pendant plusieurs minutes, voire plus. Le système fait déjà des vagues dans la communauté technologique ; son code source ouvert sur GitHub a recueilli plus de 2 000 étoiles, et la recherche a été acceptée pour présentation à la 2026 International Conference on Learning Representations (ICLR).

L'équipe lance également LayerSync, une méthode complémentaire qui permet à l'IA de corriger sa logique interne dans la génération de vidéos, d'images et de sons. Ensemble, ces outils promettent de concevoir de meilleurs systèmes autonomes et de libérer le potentiel des médias génératifs de longue durée.