Notebookcheck Logo

Air Head creators say OpenAI's Sora finicky to work with, needs hundreds of prompts, serious VFX work for under 2 minutes of cohesive story

Shy Kids a réalisé Air Head en collaboration avec le modèle de génération vidéo Sora d'OpenAI. (Source de l'image : Shy Kids sur YouTube)
Shy Kids a réalisé Air Head en collaboration avec le modèle de génération vidéo Sora d'OpenAI. (Source de l'image : Shy Kids sur YouTube)
OpenAI a récemment présenté une impressionnante bobine de démonstration créée par la maison de production Shy Kids à l'aide de son générateur vidéo Sora. Il s'avère que Shy Kids a consacré une quantité incroyable de travail à la post-production d'Air Head, malgré l'affirmation d'OpenAI selon laquelle Sora permet de produire des vidéos sans effort.

Lorsque OpenAI a annoncé Sora, son IA génératrice de vidéos, l'une des vidéos utilisées pour démontrer ses capacités était le court métrage de Shy Kids intitulé Air Head. Alors que la vidéo a été initialement présentée comme une démonstration impressionnante du modèle OpenAI, une récente interview de Shy Kids sur le site FX Guide avec Shy Kids révèle que la vidéo a nécessité beaucoup plus de travail que ce que l'on pensait.

Bien que les capacités de Sora soient impressionnantes et quasiment impossibles à réaliser il y a un an ou deux, l'équipe de Shy Kids a tout de même mis près de deux semaines à créer Air Head, principalement en raison des limites de l'IA. L'un des principaux obstacles rencontrés par Shy Kids avec Sora a été son manque de cohésion, qui a contraint l'équipe de production à utiliser une méthode de montage peu orthodoxe, un peu comme pour la création d'un film ou d'un documentaire en found footage.

Il s'agissait simplement d'obtenir un grand nombre de plans et d'essayer de les découper d'une manière intéressante pour la VO. - Patrick Cederberg, post-production sur Air Head

Shy Kids dit qu'elle avait un scénario pour la vidéo, mais l'équipe a dû faire preuve de fluidité et s'adapter à la diversité des productions générées par Sora. Shy Kids a également eu du mal à maintenir la cohérence d'un plan à l'autre, Sora générant souvent un type de tête différent sur le ballon. Au total, M. Cederberg affirme qu'il a fallu des "centaines de générations" pour obtenir un peu moins d'une minute et demie de séquences montées pour la vidéo. Il estime également que le rapport entre le matériel source et le contenu final était de 300:1, ce qui signifie que Shy Kids n'a utilisé qu'environ 0,33 % de la vidéo générée par Sora dans son montage final.

Mes calculs sont mauvais, mais je dirais que le rapport entre le matériel source et le contenu final est probablement de 300:1.

Travailler avec Sora ne se résume pas à générer des centaines de clips. L'équipe a également dû effectuer manuellement toutes les tâches habituelles telles que l'étalonnage, le recadrage et même les effets spéciaux pour supprimer les éléments indésirables de l'image. Dans un clip généré, Sora a produit un ballon avec un visage imprimé sur le devant, et dans d'autres, le ballon était de couleur différente ou avait une ficelle indésirable qui pendait en bas - tout cela a dû être supprimé.

Dans le cadre d'applications VFX plus avancées, l'équipe de Shy Kids a retiré une tête entière qui avait été générée sur Sonny, le personnage principal, à la place du ballon. Des éléments de ce type ont été supprimés dans Adobe After Effects(qui coûte 34,99 $/mois et est disponible sur Amazon) afin d'obtenir un produit final.

Si Sora et l'IA vidéo générative ont beaucoup progressé, il semble qu'ils soient loin de remplacer les artistes en coulisses, surtout si le contenu produit est censé être cohérent ou durer plus de quelques secondes. Cela explique probablement aussi pourquoi, à l'exception de deux d'entre eux, tous les clips "non édités" qu'OpenAI a publiés sur sa page Sora sont tous de l'ordre de 20 secondes ou moins.

Please share our article, every link counts!
> Revues et rapports de ordinateurs portatifs et smartphones, ordiphones > Archives des nouvelles 2024 04 > Sora d'OpenAI est difficile à utiliser, il a besoin de centaines d'invites et d'un travail VFX important pour une histoire cohérente de moins de 2 minutes
Julian van der Merwe, 2024-04-27 (Update: 2024-04-27)