Les chercheurs de Google dévoilent Genie - une IA qui sait créer des scènes de mini-jeux à partir d'images d'exemple

L'IA Google Genie peut créer une mini-scène de jeu jouable à partir d'une seule image. (Source : image générée par l'IA Dall-E 3)

Les chercheurs de Google DeepMind ont dévoilé Genie, la première IA générative d'environnement interactif au monde. Cette IA peut regarder une image d'un exemple de jeu de plateforme en 2D, puis créer une scène de mini jeu jouable. L'IA n'a pas besoin de données supplémentaires pour y parvenir.

David Chien (traduit par Ninh Duy), Publié 03/06/2024 🇺🇸 🇨🇳 ...

AI Gaming

Des chercheurs de Google DeepMind ont dévoilé Genie, la première IA générative d'environnement interactif au monde. L'IA peut créer une scène jouable après avoir regardé une image d'un exemple de jeu. Cela permet aux joueurs de créer des jeux jouables sans programmation.

Genie a été formé au gameplay des jeux de plateforme en 2D en regardant 30 000 heures de vidéos (6,8 millions de clips de 16 secondes). L'IA simplifie ce qu'elle voit en représentant les images vidéo et les actions qu'elle voit comme des ensembles de nombres, un peu comme un humain qui utiliserait des mots pour décrire une scène de jeu.

Une fois entraîné, un seul exemple de scène de jeu suffit à Genie pour créer une mini-scène jouable. En coulisses, l'IA peut étendre l'image de départ à l'aide de méthodes sophistiquées pour générer les parties manquantes d'une image, de sorte que Genie puisse dessiner de nouvelles parties du monde du jeu au fur et à mesure que le joueur avance. Pour ce faire, elle se réfère aux millions de clips qu'elle a vus tout en donnant au personnage des actions jouables telles que courir ou sauter.

Il est important de noter que Genie apprend les actions en observant le gameplay, et non pas en demandant à des humains de les lui indiquer. Ainsi, lorsqu'il y a un pont avec un vide, l'IA sait, d'après ce qu'elle a vu, qu'un personnage devra probablement sauter par-dessus le vide, ce qu'il fait lorsque le joueur humain appuie sur le bouton "haut" d'une manette.

Tout cela nécessite une énorme puissance de calcul pour l'entraînement (des milliers de téraflops pendant des semaines sur des ordinateurs dotés de centaines de puces) et le jeu, qui ne peut se faire qu'à une vitesse extrêmement lente d'une image par seconde.

Pour les amateurs de technique, les images vidéo et les actions latentes déduites sont codées à l'aide de van den Oord's VQ-VAE. Les actions latentes spécifiées par l'utilisateur, ainsi que les images vidéo tokenisées, sont introduites dans le modèle dynamique à l'aide du transformateur MaskGIT de Chang de Chang pour générer des jetons d'images itératifs qui sont utilisés pour générer des vidéos de sortie à l'aide de MaskViT de Gupta. Les transformateurs ST adoptés par Xu sont utilisés partout pour inclure l'attention temporelle en plus de l'attention spatiale afin d'améliorer les prédictions et de réduire les besoins en mémoire.

Ainsi, en attendant le jour où les ordinateurs seront suffisamment puissants pour créer des jeux de plateforme en 2D de manière totalement autonome, profitez des jeux de plateforme classiques avec une console de jeu portable(comme celle-ci sur Amazon).