NVIDIA behebt Blackwell: Eine schnelle Reaktion auf das GPU-Problem
13:01, 24.10.2024
NVIDIA-CEO Jensen Huang erkannte einen Designfehler in der Blackwell-Serie an, der zu Verzögerungen bei der Lieferung von KI-Chips führte. Das Problem betraf einen funktionalen Defekt, der zu einer niedrigen Ausbeute funktionsfähiger Chips führte. Laut Huang lag der Fehler vollständig bei NVIDIA und nicht bei ihrem Fertigungspartner TSMC, wie einige Quellen vermutet hatten. Er betonte, dass TSMC nicht nur nicht in das Problem verwickelt war, sondern auch eine aktive Rolle bei dessen Behebung spielte.
Chip-Verbesserungen und die Rolle von TSMC
Das Problem wurde durch die Modifizierung der oberen Metallschichten und Silizium-Bumps im GPU behoben, was die Leistung verbesserte. Die Lösung erforderte erhebliche Anstrengungen, da gleichzeitig sieben verschiedene Chiptypen von Grund auf neu gefertigt werden mussten. Die Hauptschwierigkeiten hingen mit der CoWoS-L-Verpackungstechnologie zusammen, die LSI-Siliziumbrücken, den RDL-Interposer und GPU-Chiplets verwendet. Probleme traten aufgrund der thermischen Ausdehnung der Komponenten auf, was zu Systemverformungen führte. Solche Korrekturen dauern normalerweise etwa 10 Zyklen, aber NVIDIA und TSMC konnten das Problem in Rekordzeit lösen.
Massenproduktion der aktualisierten Chips
Die aktualisierten Blackwell B100- und B200-GPUs sollen bis Ende Oktober in die Massenproduktion gehen, wobei die Auslieferung Anfang nächsten Jahres erwartet wird. Obwohl die Produktion der verbesserten Chips bereits hochgefahren wird, rechnet NVIDIA für 2024 weiterhin mit einem Mangel an Hochleistungs-GPUs, insbesondere für große Cloud-Anbieter wie AWS, Google und Microsoft.