Des chercheurs doublent la vitesse d'apprentissage de l'IA en maîtrisant les inefficacités de la longue traîne dans l'utilisation des processeurs

Image décorative représentant une puce sur laquelle est inscrit l'acronyme "AI"

Un nouveau système exploite la puissance de calcul inutilisée pour former à la volée une ébauche de modèle plus petite, ce qui accélère considérablement l'apprentissage par renforcement pour les modèles linguistiques complexes de grande taille sans sacrifier la précision.

Chibuike Okpara (traduit par DeepL / Ninh Duy), Publié 02/28/2026 🇺🇸 🇪🇸 ...

AI Science

Le développement de grands modèles de langage capables de raisonnement, de programmation avancée et de planification en plusieurs étapes nécessite d'énormes ressources informatiques. Au cours du processus standard d'apprentissage par renforcement, les modèles génèrent de multiples réponses potentielles afin d'apprendre la meilleure réponse. Cette phase de génération, connue sous le nom de déploiement, peut consommer jusqu'à 85 % du temps d'exécution total. Elle crée un goulot d'étranglement critique caractérisé par une distribution à longue queue, où les processeurs qui terminent les réponses les plus courtes restent inactifs en attendant que d'autres complètent des requêtes plus longues.

Pour éliminer ce temps d'arrêt inutile, des chercheurs du Massachusetts Institute of Technology, ainsi que des collaborateurs industriels et universitaires, ont mis au point un système appelé "Taming the Long Tail" (TLT). L'approche utilise un modèle de dessinateur adaptatif qui s'entraîne en continu sur des processeurs inactifs. Ce modèle léger devine rapidement les futures sorties du modèle cible plus important, qui vérifie ensuite toutes les suppositions simultanément grâce à une technique appelée décodage spéculatif.

Alors que le décodage spéculatif traditionnel repose sur un dessinateur statique qui devient rapidement obsolète lors des mises à jour continues de la formation, le système TLT réaligne continuellement le dessinateur pendant la formation, sans coût de calcul supplémentaire. Un moteur de déploiement adaptatif intégré optimise encore le processus en maintenant un pool de graphes précapturés à faible consommation de mémoire et en sélectionnant dynamiquement la meilleure stratégie de décodage pour chaque nouveau lot d'entrées.

Les évaluations de plusieurs modèles de raisonnement montrent que cette solution sans perte accélère les vitesses de formation de bout en bout de 70 à 110 % par rapport aux systèmes de pointe. En préservant les niveaux de précision d'origine et en produisant un modèle préliminaire de haute qualité en tant que sous-produit de déploiement gratuit, cette méthode offre une voie très efficace pour réduire les charges énergétiques et financières du développement d'architectures d'intelligence artificielle avancées.