CheckMag | La défaite d'Intel face à AMD au Supercomputing 2023 a été plus importante qu'un demi-million de Ryzen 9 - littéralement

Aurora a finalement fait ses débuts cet été, avec une demi-décennie de retard sur le calendrier prévu, soit deux générations de cartes graphiques Nvidia ou six versions de Call of Duty. (Image : Laboratoire national d'Argonne)

Les cadres de jeu peuvent faire l'objet de tout le battage médiatique sur l'internet, mais lorsque le monde de l'entreprise a des ordres de grandeur d'argent à jeter par les fenêtres, le monde des interconnexions et des accélérateurs est bien plus important.

Matthew Lee, 👁 Daniel R Deakin (traduit par Ninh Duy), Publié 12/09/2023 🇺🇸 🇪🇸 ...

AI AMD Intel Server/Datacenter Opinion / Kommentar GPU

Avis par Matthew Lee

Les points de vue, pensées et opinions exprimés dans le texte n'appartiennent qu'à l'auteur.

Lors de la conférence Supercomputing 2023 qui s'est tenue en novembre, la mise à jour de la liste Top500 des superordinateurs les plus puissants au monde a révélé que le système Aurora d'Intel - dont l'arrivée était initialement prévue pour 2018 - n'a pas réussi à détrôner la machine Frontier d'AMD. Aurora, installé au Laboratoire national d'Argonne, a obtenu un score de 585,34 PetaFLOPS dans le benchmark LINPACK haute performance (HPL), tandis que Frontier, installé au Laboratoire national d'Oak Ridge dans le Tennessee, a conservé son avance avec un score HPL de 1 194 PFLOPS. L'un ou l'autre de ces chiffres éclipse le résultat <1 TeraFLOP obtenu par le Ryzen 9 7950X dans les tests HPL de Puget Systems (bien que ce dernier soit beaucoup plus abordable à l'achat sur Amazon!)

Bien sûr, il y a beaucoup d'astérisques à ajouter ici. Aurora n'a été installé que fin juin et a fait l'objet de tests de réglage et de stabilité depuis lors ; le résultat quelque peu décevant soumis au Top500 a été obtenu avec seulement la moitié de la machine opérationnelle. Une grande partie de la période de retard était due à des dérapages de la part des partenaires plutôt que d'Intel elle-même. Les retards ne se limitaient pas à des décalages de calendrier statiques pour le même matériel, et des générations plus avancées de puces Intel ont été intégrées dans le produit final que ce qui avait été envisagé à l'origine. La liste est longue.

Mais voilà, c'est une liste dont beaucoup de gens qui regardent tout cela se dérouler ne se soucient probablement pas.

Frontier est en tête du classement depuis qu'il a dépassé Fugaku - et franchi la barre du 1-ExaFLOP - en mai 2022. (Image : Top500)

L'exécution est essentielle pour les clients commerciaux. Si un accord de niveau de service exige un temps de disponibilité de cinq neuf, les 99,999 % n'ont pas de place pour beaucoup d'astérisques. Et de ce point de vue, Intel - au plus haut niveau, sous contrat avec un client gouvernemental (le ministère américain de l'énergie, rien de moins) - a atterri à la deuxième place, battu par un système livré un an et demi plus tôt, et tellement retardé qu'il aurait dû être en service avant même que ce rival ne soit annoncé surhttps://www.notebookcheck.net/AMD-and-Cray-are-building-world-s-fastest-exascale-supercomputer.420246.0.html .

Un tel résultat peut avoir des implications significatives pour le marché des entreprises, même si ces systèmes semblent être une tour d'ivoire à l'écart des racks du monde réel. Tout comme les performances dans le haut de gamme du graphisme grand public ont conféré à Nvidia une notoriété inattaquable auprès des amateurs de matériel, la position de Frontier d'AMD au sommet, qu'elle défend depuis dix-huit mois maintenant, pourrait voir des effets de halo se répercuter sur ses processeurs EPYC et ses accélérateurs Radeon Instinct. L'inverse pourrait également se produire, les processeurs Xeon et les accélérateurs Xe d'Intel pouvant être ternis par cette défaite (et les accélérateurs Radeon Instinct) d'Intel seraient marqués par cette défaite (et par les difficultés plus générales d'Aurora), quels que soient leurs mérites.

Il y a aussi la question de la consommation d'énergie. Bien qu'Aurora ne fournisse qu'environ un quart des deux-ExaFLOP (soit environ 2 000 PetaFLOPs) qu'Intel avait précédemment revendiqué comme objectif, il n'en reste pas moins qu'il n'y a pas de problème de consommation d'énergie comme objectif par Intel, il consomme presque la moitié de l'énergie. Cela le place à 24,7 MW, ce qui est en fait près de 2 MW de plus que ce que Frontier tire, et une fois que vous ajustez pour ce dernier pompant 1,194 ExaFLOPs, la situation de l'efficacité pour l'équipe bleue est particulièrement désastreuse.

Il peut y avoir plusieurs explications à cela, mais aucune d'entre elles ne permet à Intel de faire bonne figure. Peut-être que les processeurs de serveur Sapphire Rapids et les GPU Ponte Vecchio tant vantés sont tout simplement horriblement inefficaces pour commencer ; peut-être que la consommation d'énergie indiquée inclut l'infrastructure et le refroidissement du supercalculateur complet plutôt que la moitié qui a été soumise à la liste Top500, ou que l'autre moitié du système est également active et affiche une consommation d'énergie au ralenti plutôt élevée et déconcertante. Quoi qu'il en soit, les chiffres clés indiquent que la solution d'Intel offre moins de la moitié de l'efficacité de la concurrence - et même si les superordinateurs géants eux-mêmes ne sont pas applicables aux clients professionnels potentiels, la facture d'électricité, elle, l'est certainement.

Bien que les processeurs Xeon Phi "Knight's Hill" initialement prévus pour Aurora ne se soient jamais concrétisés, Intel a continué à relever l'objectif de performance du système au cours des années qui ont suivi. (Image : Intel)

Mais il reste une question : qui dit qu'ils ne sont pas applicables au monde de l'entreprise ?

Certes, les médailles d'or et d'argent ont été construites sur (et pour) des plates-formes de calcul à haute performance sur mesure, mais le système Eagle de Microsoft est également monté sur le podium. Les 561,2 PetaFLOPs d'Eagle ont été construits à partir d'unités HGX H100 plus standardisées de Nvidia, et ils devraient être disponibles pour les modèles d'IA et les machines virtuelles via la plateforme Azure Cloud Platform ; un système commercial fabriqué à partir de matériel commercial, se situant au-dessus de tous les systèmes HPC sur mesure du monde, sauf deux.

En fin de compte, le monde de l'informatique grand public est éclipsé par l'ampleur des marchés des serveurs et des centres de données. Les duels pour la performance et l'efficacité à leur apogée auront des répercussions propres - et bien plus importantes pour les résultats d'un fabricant de puces que n'importe quelle liste de "meilleurs processeurs de jeux".