NVIDIA GPUs: Fortschritte mit der Hopper H100
NVIDIA GPUs (Graphics Processing Units) sind leistungsstarke Maschinen, die zahlreiche Berechnungen parallel über Hunderte bis Tausende diskreter Rechenkerne ausführen können. Mit der Einführung der Hopper-Mikroarchitektur im letzten Jahr gehört die NVIDIA H100 zu den leistungsstärksten Einzelcomputern, die jemals für Verbraucher verfügbar gemacht wurden, und übertrifft die Vorgängermaschinen der Ampere-Serie bei weitem.
Mit jeder Mikroarchitektur – ein Begriff für die Befehlssatzarchitektur des Prozessors – hat NVIDIA erhebliche Verbesserungen in Bezug auf VRAM-Kapazität, CUDA-Kerne und Bandbreite gegenüber der vorherigen Generation eingeführt. Während die leistungsstarken Ampere-GPUs, insbesondere die A100, in den letzten zwei Jahren die KI-Revolution vorangetrieben haben, haben wir gesehen, dass Hopper-GPUs diese Entwicklung auf ein beispielloses Wachstumsniveau beschleunigt haben.
Überblick über die Hopper H100
In diesem Artikel werden wir einige der erstaunlichen Fortschritte in der neuesten und besten Data-Center-GPU von NVIDIA vorstellen und erläutern: die Hopper-Serie H100.
Voraussetzungen
Der Inhalt dieses Artikels ist hochgradig technisch. Wir empfehlen dieses Stück Leserinnen und Lesern, die sowohl mit Computerhardware als auch mit grundlegenden Konzepten des Deep Learning vertraut sind.
Maschinenübersicht: NVIDIA H100
Die NVIDIA H100 Tensor Core GPU stellt in vielerlei Hinsicht einen Entwicklungsschritt nach vorne gegenüber der A100 dar. In diesem Abschnitt werden wir einige dieser Fortschritte im Kontext der Deep-Learning-Anwendungen analysieren.
Zunächst verfügt die H100 über die zweithöchste Speicherbandbreite einer Peripheral Component Interconnect Express (PCIe)-Karte aller kommerziell verfügbaren GPUs – nur übertroffen von der neueren H200. Mit über 2 TB/s ist das Modell in der Lage, die größten Datensätze und Modelle mit 80 GB VRAM mit extrem hoher Geschwindigkeit zu laden und zu verarbeiten. Dies verleiht der NVIDIA H100 eine außergewöhnliche Leistung, insbesondere für groß angelegte KI-Anwendungen.
Dieser enorme Datendurchsatz wird durch die 4. Generation der Tensor Cores der H100 ermöglicht, die einen Sprung um eine Größenordnung gegenüber älteren GPUs darstellt. Die H100 verfügt über beeindruckende 640 Tensor Cores und 128 Ray Tracing Cores, die die für diese Maschine charakteristische Hochgeschwindigkeits-Datenverarbeitung ermöglichen. Diese ergänzen die 14.592 CUDA-Kerne und ermöglichen eine unglaubliche Leistung von 26 TeraFLOPS bei voller Präzision (FP64).
Darüber hinaus unterstützt die NVIDIA H100 Tensor Core-Technologie eine breite Palette von mathematischen Präzisionen und bietet eine einzige Beschleunigungslösung für jede Art von Berechnungslast. Die NVIDIA H100 PCIe unterstützt doppelte Genauigkeit (FP64), Einzelpräzision (FP32), halbe Präzision (FP16) und ganzzahlige (INT8) Berechnungen.
Neue Funktionen in Hopper-GPUs
Es gibt eine Reihe bemerkenswerter Upgrades der Hopper-Mikroarchitektur, darunter Verbesserungen der Tensor-Core-Technologie, die Einführung der Transformer Engine und vieles mehr. Werfen wir einen genaueren Blick auf einige der auffälligsten Verbesserungen.
Vierte Generation der Tensor Cores mit der Transformer Engine
Wahrscheinlich das wichtigste Update für Deep-Learning- oder Künstliche-Intelligenz-Nutzer: Die vierte Generation der Tensor Cores verspricht eine unglaubliche Beschleunigung von bis zu 60-facher Leistungseffizienz im Vergleich zur Ampere-Tensor-Core-Version. Um dies zu erreichen, hat NVIDIA die Transformer Engine eingeführt. Diese dedizierte Transformer Engine ist ein zentraler Bestandteil jedes Tensor Cores und wurde entwickelt, um Modelle zu beschleunigen, die den Transformer-Block in ihrer Architektur nutzen. Dadurch kann die Berechnung dynamisch in gemischten FP8- und FP16-Formaten erfolgen.
Optimierung von Deep Learning mit FP8 und der Transformer Engine
Da die FLOPs der Tensor Cores in FP8 doppelt so hoch sind wie bei 16-Bit, ist es äußerst wünschenswert, Deep-Learning-Modelle in diesen Formaten auszuführen, um Kosten zu senken. Dies kann jedoch die Präzision des Modells erheblich verringern. Die Innovation der Transformer Engine hat es ermöglicht, den Präzisionsverlust durch das FP8-Computerformat auszugleichen und gleichzeitig massiv von der erhöhten Durchsatzleistung von FP16 zu profitieren.
Dies ist möglich, weil die Transformer Engine in der Lage ist, bei jeder Schicht des Modells dynamisch zwischen den Formaten zu wechseln, je nach Bedarf. Darüber hinaus verbessert die NVIDIA Hopper-Architektur insbesondere die vierte Generation der Tensor Cores durch eine Verdreifachung der Gleitkommaoperationen pro Sekunde im Vergleich zu den vorherigen Generationen TF32, FP64, FP16 und INT8.
Zweite Generation Secure MIG
MIG (Multi Instance GPU)
MIG oder Multi Instance GPU ist eine Technologie, die es ermöglicht, eine einzelne GPU in vollständig getrennte und isolierte Instanzen zu unterteilen, die über eigenen Speicher, Cache und Rechenkerne verfügen. In H100-GPUs verbessert die zweite Generation der MIG-Technologie dies noch weiter, indem sie es ermöglicht, die GPU in sieben sichere GPU-Instanzen mit Multi-Tenant- und Multi-User-Konfigurationen in virtuellen Umgebungen aufzuteilen.
In der Praxis erleichtert dies das Teilen von GPUs mit einem hohen Maß an integrierter Sicherheit und ist eines der Hauptmerkmale, die H100-GPUs für Cloud-Nutzer so attraktiv machen. Jede der Instanzen verfügt über dedizierte Videodecoder, die intelligente Videoanalysen (IVA) zur gemeinsam genutzten Infrastruktur direkt an die Überwachungssysteme liefern. Administratoren können die Ressourcenzuweisung für Nutzer mit Hopper’s gleichzeitiger MIG-Profilierung überwachen und optimieren.
Vierte Generation NVLink & Dritte Generation NVSwitch
NVLink und NVSwitch sind NVIDIA-GPU-Technologien, die die Verbindung mehrerer GPUs in einem integrierten System ermöglichen. Mit jeder neuen Generation wurden diese Technologien weiter verbessert. NVLink ist die bidirektionale Verbindungshardware, die es GPUs ermöglicht, Daten miteinander zu teilen, während NVSwitch ein Chip ist, der die Verbindungen zwischen verschiedenen Maschinen in einem Multi-GPU-System durch die Kopplung der NVLink-Schnittstellen mit den GPUs herstellt.
In H100-GPUs skaliert die vierte Generation von NVLink die Multi-Instance-GPU-I/O-Interaktionen auf bis zu 900 Gigabyte pro Sekunde (GB/s) bidirektional pro GPU, was über das Siebenfache der Bandbreite von PCIe Gen5 beträgt (Quelle). Dies bedeutet, dass GPUs Informationen erheblich schneller untereinander austauschen können als bei Ampere-GPUs. Diese Innovation ist für viele der in den Marketingmaterialien angegebenen Geschwindigkeitssteigerungen von H100-Multi-GPU-Systemen verantwortlich.
Darüber hinaus unterstützt die dritte Generation von NVIDIA NVSwitch das Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) für In-Network Computing und bietet eine Verdopplung des All-Reduce-Durchsatzes innerhalb von acht H100-GPU-Servern im Vergleich zu den vorherigen A100 Tensor Core GPU-Systemen (Quelle). In der Praxis bedeutet dies, dass die neueste Generation von NVSwitch effizienter und effektiver die Abläufe im gesamten Multi-GPU-System steuern, Ressourcen gezielt zuweisen und die Durchsatzleistung auf DGX-Systemen erheblich steigern kann.
Confidential Computing
Ein häufiges Anliegen im Zeitalter von Big Data ist die Sicherheit. Während Daten oft in verschlüsselten Formaten gespeichert oder übertragen werden, bietet dies keinen Schutz vor Angreifern, die während der Verarbeitung auf die Daten zugreifen können. Mit der Einführung der Hopper-Mikroarchitektur hat NVIDIA eine neuartige Lösung für dieses Problem vorgestellt: Confidential Computing.
Diese Technologie beseitigt weitgehend das Risiko, dass Daten während der Verarbeitung gestohlen werden, indem ein physischer Datenbereich geschaffen wird, in dem Workloads unabhängig vom restlichen Computersystem verarbeitet werden. Durch die Verarbeitung aller Workloads in der unzugänglichen, vertrauenswürdigen Ausführungsumgebung wird der Zugriff auf geschützte Daten erheblich erschwert.
H100 vs A100
Die NVIDIA H100 stellt in jeder Hinsicht einen bedeutenden Fortschritt gegenüber ihrer Vorgängerin, der A100, dar. Diese Verbesserungen gehen über die Einführung neuer Technologien hinaus und umfassen auch allgemeine quantitative Verbesserungen der Rechenleistung einer einzelnen Maschine.
Vergleichen wir die H100 und A100 hinsichtlich relevanter GPU-Spezifikationen:
GPU-Eigenschaften | NVIDIA A100 | NVIDIA H100 PCIe |
---|---|---|
GPU-Architektur | NVIDIA Ampere | NVIDIA Hopper |
GPU-Board-Formfaktor | SXM4 | PCIe Gen 5 |
SMs | 108 | 114 |
TPCs | 54 | 57 |
FP32-Kerne / SM | 64 | 128 |
FP32-Kerne / GPU | 6912 | 14592 |
FP64-Kerne / SM (ohne Tensor) | 32 | 64 |
FP64-Kerne / GPU (ohne Tensor) | 3456 | 7296 |
INT32-Kerne / SM | 64 | 64 |
INT32-Kerne / GPU | 6912 | 7296 |
Tensor-Kerne / SM | 4 | 4 |
Tensor-Kerne / GPU | 432 | 456 |
GPU-Boost-Takt (nicht final für H100) | 1410 MHz | Nicht finalisiert |
Peak FP8 Tensor TFLOPS mit FP16 Akkumulation | N/A | 1600/3200 |
Peak FP8 Tensor TFLOPS mit FP32 Akkumulation | N/A | 1600/3200 |
Peak FP16 Tensor TFLOPS mit FP16 Akkumulation | 312/624 | 800/1600 |
Peak FP16 Tensor TFLOPS mit FP32 Akkumulation | 312/624 | 800/1600 |
Peak BF16 Tensor TFLOPS mit FP32 Akkumulation | 312/624 | 800/1600 |
Peak TF32 Tensor TFLOPS | 156/312 | 400/800 |
Peak FP64 Tensor TFLOPS | 19.5 | 48 |
Peak INT8 Tensor TOPS | 624/1248 | 1600/3200 |
Peak FP16 TFLOPS (non-Tensor) | 78 | 96 |
Peak BF16 TFLOPS (non-Tensor) | 39 | 96 |
Peak FP32 TFLOPS (non-Tensor) | 19.5 | 48 |
Peak FP64 TFLOPS (non-Tensor) | 9.7 | 24 |
Speichergröße | 40 oder 80 GB | 80 GB |
Speicherbandbreite | 1555 GB/s | 2000 GB/s |
(Quelle)
Leistungssteigerungen der H100 im Vergleich zur A100
Wie aus der obigen Tabelle ersichtlich ist, verfügt die H100 über eine etwas höhere Anzahl an Streaming Multiprocessors (SM) und Texture Processing Centers (TPC) als die A100, jedoch über eine deutlich höhere Anzahl an Tensor-Kernen für jede numerische Rechenformatierung und pro SM. Tatsächlich besitzt die H100 doppelt so viele FP32-Kerne pro SM wie die A100, mehr als doppelt so viele FP64-Kerne pro SM, rund 300 zusätzliche INT32-Kerne und 24 zusätzliche Tensor-Kerne. In der Praxis bedeuten diese Verbesserungen, dass jede Verarbeitungseinheit in der H100 erheblich leistungsfähiger ist als das entsprechende System in der A100.
Dies wirkt sich direkt auf die Kennzahlen aus, die mit der Verarbeitungsgeschwindigkeit korrelieren – insbesondere auf die Spitzenleistung über verschiedene numerische Rechenformate hinweg sowie auf die Speicherbandbreite. In jedem Szenario übertrifft die H100 die A100. Zudem ermöglicht die Erweiterung der FP8-Funktionalitäten mit FP16- oder FP32-Gradientenakkumulation durch die Transformer Engine die Durchführung von Mixed-Precision-Berechnungen, die mit der A100 nicht möglich wären. Dies führt zu einer direkten Erhöhung der Speicherbandbreite um fast 450 GB/s, wodurch die Menge an Daten, die über ein System in GB/s übertragen werden kann, erheblich gesteigert wird.
Im Kontext des Trainings großer Sprachmodelle ermöglichen die kumulativen Verbesserungen der H100 eine bis zu 9-fache Beschleunigung des Trainings sowie eine 30-fache Steigerung der Inferenz-Durchsatzraten.
Wann sollte die NVIDIA H100 verwendet werden?
Wie in dieser Analyse zur H100 gezeigt wurde, stellt die H100 in jeder Hinsicht einen Fortschritt für NVIDIA-GPUs dar. In jedem Anwendungsfall übertrifft sie die vorherige Spitzenklasse der GPUs (A100) bei nur minimal erhöhtem Stromverbrauch. Darüber hinaus kann sie mit einer größeren Vielfalt numerischer Formate in gemischter Präzision arbeiten, um diese Leistung noch weiter zu steigern. Dies zeigt sich sowohl in den neuen Technologien der Hopper-GPUs als auch in den Verbesserungen bestehender Technologien sowie in der allgemeinen Erhöhung der verfügbaren Recheneinheiten.
Die H100 stellt den Höhepunkt der derzeit verfügbaren GPUs dar und ist für eine Vielzahl von Anwendungsfällen konzipiert. Ihre außergewöhnlich hohe Leistung macht sie zur idealen Wahl für alle, die künstliche Intelligenz-Modelle trainieren oder andere GPU-intensive Aufgaben ausführen möchten.
Fazit
Die H100 ist der aktuelle Goldstandard unter den GPUs. Während die neueste Generation der NVIDIA-GPUs, Blackwell, bald in der Cloud verfügbar sein wird, bleiben die H100 und ihr leistungsstarker Verwandter, die H200, die besten verfügbaren Maschinen für jede Deep-Learning-Aufgabe.