RTX 40: beeindruckende Spezifikationen (falls wahr)
Erstens wird die Ada Lovelace AD102 GPU bis zu 12 GPCs (Graphics Processing Clusters) haben. Das sind 70 % mehr als beim GA102 (dem größten im aktuellen Sortiment), der nur 7 GPCs hat. Jede GPU wird aus 6 TPCs und 2 SMs bestehen, die der Konfiguration des vorhandenen Chips entsprechen. Jeder SM (Streaming Multiprocessor) wird vier Unterkerne enthalten, was auch der GA102-GPU entspricht. Die wirkliche Änderung ist die FP32- und INT32-Kernkonfiguration. Jeder Sub-Core besteht aus 128 FP32-Blöcken, aber die kombinierten FP32 + INT32-Blöcke sind bis zu 192. Dies liegt daran, dass FP32-Blöcke nicht denselben Sub-Core wie IN32-Blöcke teilen. Die 128 FP32-Kerne sind von den 64 INT32-Kernen getrennt.
Eines der schematischen Bilder der RTX 40 GPU von Kopte7kimi.
Cache sollte ein weiterer Bereich sein, in dem NVIDIA im Vergleich zu bestehenden Ampere-GPUs alles gegeben hat. Ada Lovelace-GPUs enthalten 192 KB L1-Cache pro SM, 50 % mehr als Ampere. Dies summiert sich auf insgesamt 4,5 MB L1-Cache auf der AD102-GPU der Spitzenklasse. Der L2-Cache wird auf 96 MB erhöht, was regelmäßig in mehreren Leaks erwähnt wird. Das ist fast 16-mal mehr als die Ampere-GPU, die nur 6 MB L2-Cache hat. Der Cache wird von der GPU geteilt.
Wenn die Leaks korrekt sind, haben wir eine exponentielle Zunahme des L2-Cache auf 96 MB für den AD102. In Bezug auf die ROPs hätten wir auf dieser Architektur doppelt so viele Blöcke, 32 pro GPC, um genau zu sein, was uns insgesamt 384 ROPs für eine mögliche RTX 4090 gegenüber 112 für eine RTX 3090 geben würde … Auf dem Papier ist das ungeheuerlich .
Vergleich der GPU-Eigenschaften. Der AD102 wird der Höhepunkt der RTX 40-Reihe sein.
Aber welche Vorteile können wir nach dieser Orgie an technischen Daten erwarten?
Natürlich ist es noch zu früh, um eine genaue Vorstellung zu haben, aber wenn sich diese Elemente bestätigen, wird das technische Datenblatt einen großen Unterschied im Vergleich zum Ampere zeigen. Um zusammenzufassen :
- X2 GPC (gegen Ampere)
- 50 % mehr Adern (im Vergleich zu Ampere)
- 50 % mehr L1-Cache (im Vergleich zu Ampere)
- 16x L2-Cache (im Vergleich zu Ampere)
- X2 ROP (im Vergleich zu Ampere)
- Tensorkerne der 4. Generation und RT-Kerne der 3. Generation
Aber was können wir in Bezug auf die tatsächliche Leistung erwarten?
Das ist sehr schwierig, weil uns eine wichtige Information fehlt: die Betriebsfrequenz.
Wenn wir ein wenig darüber nachdenken, können wir die Leistung des FP32 auf 90 TFLOPS auslegen, was mehr als doppelt so hoch ist wie die des aktuellen GA102. Bei TFLOPS können wir jedoch auch Überraschungen erleben. Wenn sie eine Vorstellung von der rohen Leistung geben, erlauben sie niemals eine voreingenommene Beurteilung der Ergebnisse im „alltäglichen“ Gebrauch. Durchgesickerte Ankündigungen von x2 by x2.2 im Vergleich zur RTX 30… Der Anstieg wird eindeutig sein, es scheint signifikant zu sein. Aber um weiter zu entscheiden, müssen wir noch etwas warten.
Schreibe einen Kommentar