AMD Instinct MI300X und MI300A KI-Beschleuniger im Detail: CDNA 3 und Zen 4 vereinen sich in einem fortschrittlichen Verpackungswunder

AMD Instinct MI300X und MI300A KI-Beschleuniger im Detail: CDNA 3 und Zen 4 vereinen sich in einem fortschrittlichen Verpackungswunder

Der AMD Instinct MI300X und MI300A gehören zu den am meisten erwarteten Beschleunigern im KI-Segment, die nächsten Monat auf den Markt kommen. Die Vorfreude auf AMDs erstes vollwertiges KI-Meisterwerk ist groß, und heute haben wir darüber nachgedacht, Ihnen einen Überblick darüber zu geben, was Sie von diesem technischen Wunderwerk erwarten können.

AMD Instinct MI300X ist für GPU-beschleunigte KI-Workloads konzipiert, während MI300A HPC mit dem technisch fortschrittlichsten APU-Paket bewältigt

Am 6. Dezember wird AMD seine Keynote „Advancing AI“ veranstalten , bei der es vor allem um die vollständige Enthüllung der Instinct-Beschleunigerfamilie der nächsten Generation mit dem Codenamen MI300 geht. Diese neue GPU- und CPU-beschleunigte Familie wird das führende Produkt des KI-Segments sein, das derzeit AMDs Nr. 1 und die wichtigste strategische Priorität ist, da endlich ein Produkt auf den Markt gebracht wird, das nicht nur fortschrittlich ist, sondern auch darauf ausgelegt ist, die kritischen Anforderungen zu erfüllen KI-Anforderung innerhalb der Branche. Die KI-Beschleuniger der MI300-Klasse werden ein weiteres Chiplet-Kraftpaket sein und fortschrittliche Verpackungstechnologien von TSMC nutzen. Schauen wir uns also an, was sich unter der Haube dieser KI-Monster verbirgt.

AMD Instinct MI300X – Fordern Sie NVIDIAs KI-Überlegenheit mit CDNA 3 und riesigem Speicher heraus

Der AMD Instinct MI300X ist definitiv der Chip, der am meisten hervorgehoben wird, da er eindeutig auf NVIDIAs Hopper- und Intels Gaudi-Beschleuniger im KI-Segment abzielt. Dieser Chip wurde ausschließlich auf der CDNA 3-Architektur entwickelt und es ist eine Menge los. Der Chip wird eine Mischung aus 5-nm- und 6-nm-IPs beherbergen, die zusammen bis zu 153 Milliarden Transistoren (MI300X) liefern.

AMD Instinct MI300X und MI300A KI-Beschleuniger im Detail: CDNA 3 und Zen 4 kommen in einem fortschrittlichen Marvel 2-Paket zusammen
AMD Instinct MI300X Beschleuniger.

Beginnend mit dem Design wird der Hauptinterposer mit einem Passivchip ausgelegt, der die Verbindungsschicht unter Verwendung einer Infinity Fabric-Lösung der nächsten Generation beherbergt. Der Interposer umfasst insgesamt 28 Dies, darunter acht HBM3-Pakete, 16 Dummy-Dies zwischen den HBM-Paketen und vier aktive Dies, und jeder dieser aktiven Dies erhält zwei Rechen-Dies.

Jeder GCD, der auf der CDNA 3-GPU-Architektur basiert, verfügt über insgesamt 40 Recheneinheiten, was 2560 Kernen entspricht. Insgesamt gibt es acht Compute-Dies (GCDs), sodass wir insgesamt 320 Compute- und 20.480 Kerneinheiten haben. Aus Ertragsgründen wird AMD einen kleinen Teil dieser Kerne reduzieren und wir werden in einem Monat weitere Details zu den genauen Konfigurationen erhalten.

AMD Instinct MI300X und MI300A KI-Beschleuniger im Detail: CDNA 3 und Zen 4 vereinen sich in einer fortschrittlichen Verpackung Marvel 4
AMD Instinct MI300X Accelerator mit CDNA 3 stirbt.

Der Speicher ist ein weiterer Bereich, in dem Sie eine enorme Verbesserung erleben werden: Der MI300X verfügt über 50 % mehr HBM3-Kapazität als sein Vorgänger, der MI250X (128 GB). Um einen Speicherpool von 192 GB zu erreichen, stattet AMD den MI300X mit 8 HBM3-Stacks aus, wobei jeder Stack 12-Hi groß ist und gleichzeitig 16-GB-ICs integriert, was uns eine Kapazität von 2 GB pro IC oder 24 GB pro Stack bietet. Der Speicher bietet eine Bandbreite von bis zu 5,2 TB/s und eine Infinity Fabric-Bandbreite von 896 GB/s. Zum Vergleich: NVIDIAs kommender KI-Beschleuniger H200 bietet 141 GB Kapazität, während Gaudi 3 von Intel 144 GB Kapazität bieten wird. Große Speicherpools sind in LLMs, die größtenteils speichergebunden sind, von großer Bedeutung, und AMD kann seine KI-Fähigkeiten definitiv unter Beweis stellen, indem es in der Speicherabteilung führend ist.

232328650_instinct_mi300a_exploded_view_01-custom232328650_instinct_mi300x_exploded_view_01-custom232328650_instinct_mi300a_exploded_view_02-custom232328650_instinct_mi300x_exploded_view_02-custom232328650_instinct_mi300a_cross_section_angle_01-custom232328650_instinct_mi300x_cross_section_angle_01-custom232328650_instinct_mi300a_exploded_view_03-custom232328650_instinct_mi300x_exploded_view_03-custom

In Bezug auf den Stromverbrauch wird der AMD Instinct MI300X mit 750 W bewertet, was einer Steigerung von 50 % gegenüber den 500 W des Instinct MI250X und 50 W mehr als dem NVIDIA H200 entspricht.

AMD Instinct MI300A – Dicht gepackte Exascale-APUs jetzt Realität

Wir haben jahrelang darauf gewartet, dass AMD endlich das Versprechen einer APU der Exascale-Klasse einlöst, und der Tag rückt näher, da wir der Einführung des Instinct MI300A immer näher kommen. Die Verpackung des MI300A ist der des MI300X sehr ähnlich, außer dass hier TCO-optimierte Speicherkapazitäten und Zen 4-Kerne zum Einsatz kommen.

AMD Instinct MI300X und MI300A KI-Beschleuniger im Detail: CDNA 3 und Zen 4 kommen in einer fortschrittlichen Verpackung zusammen Marvel 3
AMD Instinct MI300A Beschleuniger.

Bei einem der aktiven Chips wurden zwei CDNA 3 GCDs herausgeschnitten und durch drei Zen 4 CCDs ersetzt, die über einen eigenen separaten Pool an Cache- und Kern-IPs verfügen. Sie erhalten 8 Kerne und 16 Threads pro CCD, also insgesamt 24 Kerne und 48 Threads auf dem aktiven Chip. Es gibt außerdem 24 MB L2-Cache (1 MB pro Kern) und einen separaten Cache-Pool (32 MB pro CCD). Es ist zu beachten, dass die CDNA 3 GCDs auch über einen separaten L2-Cache verfügen.

AMD Instinct MI300X und MI300A KI-Beschleuniger im Detail: CDNA 3 und Zen 4 kommen in einem fortschrittlichen Marvel 5-Paket zusammen
AMD Instinct MI300A Accelerator mit CDNA 3 und Zen 4 stirbt.

Wir fassen einige der hervorgehobenen Funktionen der AMD Instinct MI300-Beschleuniger zusammen:

  • Erstes integriertes CPU+GPU-Paket
  • Ziel ist der Markt für Exascale-Supercomputer
  • AMD MI300A (Integrierte CPU + GPU)
  • AMD MI300X (nur GPU)
  • 153 Milliarden Transistoren
  • Bis zu 24 Zen 4-Kerne
  • CDNA 3 GPU-Architektur
  • Bis zu 192 GB HBM3-Speicher
  • Bis zu 8 Chiplets + 8 Speicherstapel (5-nm- + 6-nm-Prozess)

Um all dies zusammenzuführen, wird AMD mit seinen Ökosystem-Enablern und Partnern zusammenarbeiten, um MI300-KI-Beschleuniger in 8-Wege-Konfigurationen mit SXM-Designs anzubieten, die über Mezzanine-Anschlüsse mit dem Mainboard verbunden werden. Es wird interessant sein zu sehen, in welchen Konfigurationen diese angeboten werden, und während SXM-Boards eine Selbstverständlichkeit sind, können wir auch einige Varianten in den PCI-E-Formfaktoren erwarten.

amd-instinct-mi300-ai-accelerators-servers-_2amd-instinct-mi300-ai-accelerators-servers-_1amd-instinct-mi300-ai-accelerators-servers-_4amd-instinct-mi300-ai-accelerators-servers-_5amd-instinct-mi300-ai-accelerators-servers-_3

Im Moment sollte sich AMD darüber im Klaren sein, dass auch seine Konkurrenten den KI-Boom mit Volldampf vorantreiben, da NVIDIA bereits einige hohe Zahlen für seine Blackwell-GPUs für 2024 bekannt gibt und Intel seine Guadi 3- und Falcon Shores-GPUs ebenfalls für die Markteinführung in den kommenden Jahren vorbereitet. Eines ist im Moment sicher: KI-Kunden werden fast alles verschlingen, was sie bekommen können, und jeder wird davon profitieren. Aber AMD hat eine sehr beeindruckende Lösung, die nicht nur darauf abzielt, eine Alternative zu NVIDIA zu sein, sondern auch führend im KI-Segment zu sein, und wir hoffen, dass MI300 ihnen dabei helfen kann, diesen Erfolg zu erzielen.

AMD Radeon Instinct-Beschleuniger

Beschleunigername AMD Instinct MI400 AMD Instinct MI300 AMD Instinct MI250X AMD Instinct MI250 AMD Instinct MI210 AMD Instinct MI100 AMD Radeon Instinct MI60 AMD Radeon Instinct MI50 AMD Radeon Instinct MI25 AMD Radeon Instinct MI8 AMD Radeon Instinct MI6
CPU-Architektur Zen 5 (Exascale APU) Zen 4 (Exascale APU) N / A N / A N / A N / A N / A N / A N / A N / A N / A
GPU-Architektur CDNA 4 Aqua Vanjaram (CDNA 3) Aldebaran (CDNA 2) Aldebaran (CDNA 2) Aldebaran (CDNA 2) Arcturus (CDNA 1) Vega 20 Vega 20 Vega 10 Fidschi XT Polaris 10
GPU-Prozessknoten 4nm 5nm+6nm 6 nm 6 nm 6 nm 7-nm-FinFET 7-nm-FinFET 7-nm-FinFET 14-nm-FinFET 28nm 14-nm-FinFET
GPU-Chiplets Noch offen 8 (MCM) 2 (MCM)
1 (pro Würfel)
2 (MCM)
1 (pro Würfel)
2 (MCM)
1 (pro Würfel)
1 (monolithisch) 1 (monolithisch) 1 (monolithisch) 1 (monolithisch) 1 (monolithisch) 1 (monolithisch)
GPU-Kerne Noch offen Bis zu 19.456 14.080 13.312 6656 7680 4096 3840 4096 4096 2304
GPU-Taktgeschwindigkeit Noch offen TBA 1700 MHz 1700 MHz 1700 MHz 1500 MHz 1800 MHz 1725 MHz 1500 MHz 1000 MHz 1237 MHz
FP16 Computing Noch offen TBA 383 TOPs 362 TOPs 181 TOPs 185 TFLOPs 29,5 TFLOPs 26,5 TFLOPs 24,6 TFLOPs 8,2 TFLOPs 5,7 TFLOPs
FP32-Berechnung Noch offen TBA 95,7 TFLOPs 90,5 TFLOPs 45,3 TFLOPs 23,1 TFLOPs 14,7 TFLOPs 13,3 TFLOPs 12,3 TFLOPs 8,2 TFLOPs 5,7 TFLOPs
FP64-Rechner Noch offen TBA 47,9 TFLOPs 45,3 TFLOPs 22,6 TFLOPs 11,5 TFLOPs 7,4 TFLOPs 6,6 TFLOPs 768 GFLOPs 512 GFLOPs 384 GFLOPs
VRAM Noch offen 192 GB HBM3 128 GB HBM2e 128 GB HBM2e 64 GB HBM2e 32 GB HBM2 32 GB HBM2 16 GB HBM2 16 GB HBM2 4 GB HBM1 16 GB GDDR5
Erinnerungsuhr Noch offen 5,2 Gbit/s 3,2 Gbit/s 3,2 Gbit/s 3,2 Gbit/s 1200 MHz 1000 MHz 1000 MHz 945 MHz 500 MHz 1750 MHz
Speicherbus Noch offen 8192-Bit 8192-Bit 8192-Bit 4096-Bit 4096-Bit-Bus 4096-Bit-Bus 4096-Bit-Bus 2048-Bit-Bus 4096-Bit-Bus 256-Bit-Bus
Speicherbandbreite Noch offen 5,2 TB/s 3,2 TB/s 3,2 TB/s 1,6 TB/s 1,23 TB/s 1 TB/s 1 TB/s 484 GB/s 512 GB/s 224 GB/s
Formfaktor Noch offen OAM OAM OAM Dual-Slot-Karte Dual-Slot, volle Länge Dual-Slot, volle Länge Dual-Slot, volle Länge Dual-Slot, volle Länge Doppelschlitz, halbe Länge Einzelschlitz, volle Länge
Kühlung Noch offen Passive Kühlung Passive Kühlung Passive Kühlung Passive Kühlung Passive Kühlung Passive Kühlung Passive Kühlung Passive Kühlung Passive Kühlung Passive Kühlung
TDP (max.) Noch offen 750W 560W 500W 300W 300W 300W 300W 300W 175W 150W

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert