Groq présente une unité de traitement linguistique spécialisée nettement plus rapide que les accélérateurs d'IA de Nvidia

Groq LPU (Source d'image : Groq)

Le moteur d'inférence LPU de Groq est conçu pour être considérablement plus rapide que les GPGPU lors du traitement des données LLM. Pour ce faire, le LPU utilise mieux le traitement séquentiel et est associé à la SRAM au lieu de la DRAM ou de la HBM.

Bogdan Solca (traduit par Ninh Duy), Publié 02/29/2024 🇺🇸 🇨🇳 ...

Alors que Nvidia réalise actuellement bénéfices exceptionnels en surfant sur la vague de l'IA grâce à la demande croissante de GPU de calcul, le marché pourrait devenir plus décentralisé à mesure que d'autres entreprises se lancent dans la fourniture de processeurs d'IA alternatifs viables. Nous avons constaté les efforts de plusieurs entreprises à cet égard, notamment AMD, d-Matrix, OpenAI et Samsung. Il semble que plusieurs ingénieurs ayant participé à la conception de l'unité de traitement tensoriel (TPU) de Google soient désormais impliqués dans des projets d'IA indépendants qui promettent de surpasser les solutions de Nvidia. Samsung, par exemple, a récemment annoncé que son nouveau laboratoire AGI Computing, ouvert dans la Silicon Valley, était dirigé par l'ancien développeur de la TPU de Google, le Dr Woo Dong-hyuk. Un autre ingénieur clé qui a contribué au développement de la TPU de Google est Jonathan Ross, aujourd'hui PDG d'une nouvelle entreprise appelée Groq. Grâce à l'expérience acquise chez Google, M. Ross apporte une innovation sur le marché des accélérateurs d'IA avec la première unité de traitement du langage (LPU) au monde.

La LPU de Groq est spécialement conçue pour traiter de grands modèles de langage (LLM) et présente des avantages indéniables par rapport aux GPU à usage général ou aux NPUs. Groq a initialement développé le Tensor Stream Processor (TSP), qui a ensuite été rebaptisé unité de traitement du langage pour refléter ses compétences accrues dans les tâches d'IA générative basées sur l'inférence. Étant donné qu'elle se concentre uniquement sur les LLM, la LPU est beaucoup plus rationalisée qu'une GPGPU et permet de simplifier le matériel d'ordonnancement avec une latence plus faible, un débit soutenu et une efficacité accrue.

Par conséquent, le LPU réduit le temps de calcul par mot et les séquences de texte peuvent être générées beaucoup plus rapidement. Une autre amélioration clé est que le LPU élimine le besoin de mémoire coûteuse (HBM), puisqu'elle n'utilise que 230 Mo de SRAM par puce avec une bande passante de 80 To/s, ce qui la rend considérablement plus rapide que les solutions GPGPU traditionnelles. L'architecture de Groq est également évolutive, car plusieurs LPU peuvent être interconnectées pour augmenter la puissance de traitement de LLM plus complexes.

Pour démontrer à quel point le moteur d'inférence LPU est plus rapide que les GPU, Groq propose une comparaison vidéo de son propre chatbot qui peut basculer entre les LLM Llama 2 / Mixtral et les LLM d'OpenAI Chat-GPT. Groq affirme que le LLM génère le texte en une fraction de seconde et que les 3 ⁄ 4 restants du temps sont consacrés à la recherche d'informations pertinentes.