Créez des images AI 30 fois plus vite : Dall-E 3 et Stable Diffusion laissés pour compte

30 fois plus rapide, mais aussi bon : DMD. (Image : github/tianweiy)

Une équipe du MIT a raccourci les processus en plusieurs étapes des générateurs d'images IA bien connus. Cela ne réduit pas seulement le temps nécessaire à la production de l'image finie. La puissance de calcul requise et la consommation d'énergie sont également réduites dans les mêmes proportions.

Mario Petzold (traduit par Ninh Duy), Publié 03/25/2024 🇺🇸 🇩🇪 ...

AI Science

La magie de Dall-E ou de la diffusion stable devrait maintenant vous être familière. À partir d'une brève description de la scène, du contenu et peut-être d'un ou deux commentaires, une image plus ou moins réaliste apparaît. Heureusement, il est généralement possible de reconnaître qu'il s'agit d'un travail généré par l'IA, mais cela remplit également sa fonction : je n'ai pas besoin de mettre un chien sur une planche de surf ou un renard dans une combinaison d'astronaute. L'image souhaitée n'est qu'à quelques clics.

En arrière-plan, cependant, il s'agit d'un processus de calcul intensif qui consiste en de nombreuses itérations, des répétitions constantes de l'algorithme pour arriver finalement à l'image souhaitée. Des chercheurs du MIT ont toutefois réussi à se passer de ces nombreuses étapes intermédiaires. Au lieu de cela, la scène décrite est créée après exactement une étape.

Il est ainsi possible d'obtenir un résultat comparable tout en réduisant considérablement la puissance de calcul nécessaire ou les temps d'attente. En même temps, le système appelé "Distribution Matching Distillation (DMD)" nécessite moins d'énergie.

En d'autres termes, les images utilisées pour la formation sont décomposées en zones plus grossières. Cela permet de déterminer la composition approximative de l'image en fonction du sujet. En outre, la probabilité des différents éléments de l'image est analysée afin d'obtenir une scène cohérente à la fin.

En fin de compte, les informations détaillées et la complexité sont réduites, de sorte que le générateur d'images devient tout simplement plus rapide. Au lieu de 2 à 3 secondes par image, le même matériel prend environ 100 millisecondes - un trentième.

Si vous regardez de près les images, la réduction des détails est clairement visible. Les arrière-plans sont légèrement flous et les éléments de l'image peuvent être répétés. Dans certains cas, les motifs sont tout de même beaucoup plus beaux et il est plus facile de reconnaître qu'il s'agit d'une œuvre d'intelligence artificielle, ou du moins d'une œuvre artificielle. Autre effet positif.

Outre le renard astronaute, vous trouverez de nombreux autres exemples du modèle DMD à l'adresse https://tianweiy.github.io/dmd/.