Eine neue Blackwell-Architektur von Nvidia - ein neuer Meilenstein in der Entwicklung von GPUs
09:20, 21.03.2024
Auf der GTC März 20224 präsentierte NVIDIA eine neue Chip-Architektur Blackwell sowie darauf basierende B200-GPUs und Grace Blackwell GB200-Chips, bei denen beide Architekturen kombiniert werden.
Der B200-GPU verfügt über 208 Milliarden Transistoren im Vergleich zu 80 Milliarden H100/H200, die bisher in Rechenzentren eingesetzt wurden, und bietet 20 Petaflops KI-Leistung pro GPU (im Vergleich zu 4 Petaflops bei H100). Ein solcher Chip wird über 192 GB HBM3e-Speicher mit einer Bandbreite von bis zu 8 TBps verfügen.
Im Gegensatz zu herkömmlichen GPUs ist der Blackwell B200 eine Art Doppelprozessor, da er aus zwei gemeinsamen Kristallen besteht, die wie ein einziger CUDA-Prozessor arbeiten und mit dem NV-HBI NVIDIA High Bandwidth Interface mit 10 TBps verbunden sind. Der Blackwell B200 wird mit dem 4NP-Prozess von TSMC hergestellt. Die Kristalle verfügen über HMB3e-Stacks mit jeweils 24 GB und 1 TBps Bandbreite.
Die derzeit leistungsstärkste angekündigte Lösung ist der GB200-Chip, bestehend aus zwei B200-GPUs.
Für die Verbindung mehrerer Knoten präsentiert Nvidia die fünfte NVLink-Chipgeneration mit einer bidirektionalen Bandbreite von 1,8 TBps, die aus 50 Milliarden Transistoren besteht und im technischen Prozess TSMC 4NP hergestellt wird.
Jeder Blackwell-GPU verfügt über 18 NVLink-Links, das sind 18 Mal mehr als beim H100. Da jeder Link über eine bidirektionale Bandbreite von 50 GBps verfügt, was 100 GBps pro Verbindung bedeutet, funktionieren große Gruppen von GPU-Knoten fast wie eine riesige GPU-Einheit.
Darüber hinaus bilden die Chips mit den neuen Schnittstellen den NVIDIA B200 NVL72 Server, eine vollwertige 18-Server-Rack-Lösung mit 18 1U-Servern, die jeweils mit GB200-Chips und einer Grace-CPU pro zwei GPU B200 ausgestattet sind. Das bedeutet, dass jeder Rechenknoten des GB200 NVL72 über zwei GB200-Superchips verfügt, wobei jedes Rack zwei Grace-CPUs und vier B200-GPUs mit 80 Petaflops FP4-KI und 40 Petaflops FP8-KI-Leistung enthält.
Ein vollständiger GB200 verfügt über 36 Grace-CPUs und 72 Blackwell-GPUs mit 720 FP8-Petaflops und 1440 FP4-Petaflops. Die 130 TBps Multinode-Bandbreite dieses Servers kann bis zu 27 Billionen KI-Sprachmodellparameter verarbeiten.