AMD-betriebener Frontier-Supercomputer hat mehrere Hardwareausfälle erlebt
Der Bau eines Supercomputers erfordert immer viel Aufwand, aber die Entwicklung der ersten Hardware der Exaflop-Klasse für den Sektor ist sehr schwierig und erfordert die Entwicklung einer Menge Hardware und Software. Leider mag dies beim Frontier-Supercomputer im Oak Ridge National Laboratory der Fall sein, der ohne eine Vielzahl von Hardwareproblemen kaum durch den Tag kommt .
Mit AMD EPYC Trento – Prozessoren mit 64 Kernen, Instinct MI250X -Rechen-GPUs und HPE Slingshot – Verbindung ist das Frontier-System von ORNL das erste System der Branche, das eine Spitzenleistung von bis zu 1.685 FP64 ExaFLOPS bei 21 MW Stromverbrauch erreichen kann . Das System wurde von HPE unter Verwendung der Cray EX -Architektur gebaut, die für skalierbare Anwendungen, insbesondere für außergewöhnlich schnelle Supercomputer, gebaut wurde.
Obwohl die Hardwarekomponenten des Frontier-Supercomputers geliefert wurden und die Maschine auf dem Papier ein bemerkenswertes Potenzial zu haben scheint, scheinen Hardwareprobleme zu verhindern, dass sie online geht und Forschern zur Verfügung steht, die eine Leistung von etwa 1 FP64 ExaFLOPS benötigen .
Justin Witt , Programmdirektor der Oak Ridge Leadership Computing Facility (OLCF), kommentierte die Situation und erwähnte:
Wir arbeiten an Hardwareproblemen und stellen sicher, dass wir verstehen (was sie sind). Sie werden Fehler in dieser Größenordnung haben. Die mittlere Zeit zwischen Ausfällen in einem System dieser Größe beträgt Stunden, nicht Tage.“
Eine Zeit lang gab es Gerüchte über mögliche Frontier-Hardwareausfälle. Laut einem anderen InsideHPC- Artikel haben einige behauptet, dass der Slingshot-Anschluss Probleme im System verursacht. Anderen Berichten zufolge waren AMDs Instinct MI250X-Compute-GPUs dieses Jahr nicht so zuverlässig. Es ist wichtig zu bedenken, dass nur eine begrenzte Anzahl von Verbrauchern die X-Version erwerben kann, die über mehr Stream-Prozessoren und höhere Geschwindigkeiten verfügt.
Herr Witt bestand darauf, dass der Computer mehrere Hardwareprobleme hatte, aber er gab nicht an, dass das System irgendwelche spezifischen Probleme mit Instinct oder Slingshot hatte.
Viele Probleme hängen mit diesen [GPUs] zusammen, aber das sind nicht die meisten Probleme, die wir sehen. Das ist eine ziemlich gute Verteilung unter den üblichen Schuldigen für Teilausfälle, die einen großen Teil davon ausmachten. Ich glaube nicht, dass wir uns im Moment große Sorgen um AMD-Produkte machen.“
Der Frontier-Supercomputer im Oak Ridge National Laboratory ist keineswegs der einzige, der AMD EPYC-Prozessoren, Slingshot-Verbindungen und die Cray EX-Architektur von HPE verwendet. Der offiziell als drittleistungsstärkster Supercomputer der Welt anerkannte Supercomputer Lumi aus Finnland erreicht beispielsweise bei Verwendung ähnlicher Komponenten eine Spitzenleistung von 550 Petaflops . Die Größe der Maschine, die insgesamt 60 Millionen Teile benötigt , kann das Problem gangbar machen.
Da der Frontier-Supercomputer noch offiziell eingesetzt werden muss, ist noch unklar, ob er den Wissenschaftlern ab 2023 , wie ursprünglich geplant, im Jahr 2022 zur Verfügung stehen wird .
Schreibe einen Kommentar