H100 vs. A100: Welche GPU solltest du 2026 mieten?

Die kurze Antwort

Für die meisten ML-Entwickler, die Modelle unter 30B Parametern trainieren oder Standard-Fine-Tuning-Workloads fahren, trifft der A100 80GB den Sweet Spot. Der H100 wird dann klar sinnvoll, wenn du 70B+-Modelle trainierst, hochvolumige Inferenz im großen Maßstab betreibst oder wenn die Wanduhrzeit tatsächlich mehr kostet als die GPU selbst.

Kurzfassung: Beim Fine-Tuning eines 7B–30B-Modells fängst du am besten mit einem A100 80GB an. Auf H100 wechselst du erst, wenn die Trainingsgeschwindigkeit zum Engpass wird — nicht früher.

Spezifikationsvergleich: Was wirklich zählt

Spezifikation	A100 SXM 80GB	A100 PCIe 80GB	H100 SXM 80GB	H100 PCIe 80GB
Architektur	Ampere	Ampere	Hopper	Hopper
VRAM	80 GB HBM2e	80 GB HBM2e	80 GB HBM3	80 GB HBM2e
Speicherbandbreite	2,0 TB/s	2,0 TB/s	3,35 TB/s	2,0 TB/s
BF16 TFLOPS	312	312	989	756
FP8 TFLOPS	—	—	1.979	1.513
NVLink	3. Gen (600 GB/s)	—	4. Gen (900 GB/s)	—
TDP	400 W	300 W	700 W	350 W

Die Eckdaten auf einen Blick: Der H100 SXM bietet 3,2× mehr BF16-Rechenleistung und 67 % mehr Speicherbandbreite als der A100 SXM. Auf dem Papier ein deutlicher Sprung — in der Praxis erreicht dein Trainings-Loop diese theoretischen Grenzen jedoch nicht immer.

Reale Trainingsgeschwindigkeit

So sieht der Leistungsunterschied bei gängigen ML-Workloads tatsächlich aus, basierend auf Benchmarks von ML-Infrastrukturteams:

Workload	A100 80GB (Zeit)	H100 80GB (Zeit)	Speedup
Llama 3 8B Fine-Tuning (1 GPU)	100 %	~60 %	1,6×
Llama 3 70B Pre-Training (8 GPUs)	100 %	~40 %	2,4×
SDXL Bildgenerierung	100 %	~55 %	1,8×
GPT-4-Klasse Training (großer Cluster)	100 %	~35 %	2,8×
Embedding-Modell Fine-Tuning	100 %	~70 %	1,4×

Näherungswerte. Der tatsächliche Speedup hängt von Modellarchitektur, Batch-Größe und Optimizer ab.

Der H100 glänzt vor allem beim groß angelegten Multi-GPU-Training dank NVLink 4. Gen und bei durchsatzintensiver Inferenz, wo FP8-Präzision und höhere Bandbreite sich bezahlt machen. Beim Single-GPU-Fine-Tuning von 7B–13B-Modellen fällt der Speedup mit 1,4–1,6× eher moderat aus.

Cloud-Preise: Was du wirklich zahlst

Dies sind aktuelle On-Demand-Preise (April 2026) der wichtigsten GPU-Cloud-Anbieter:

Anbieter	A100 40GB/h	A100 80GB/h	H100 PCIe/h	H100 SXM/h
Vast.ai†	0,55 $	0,79 $	—	1,89 $
RunPod	—	1,59 $	—	2,49 $
Lambda Labs	1,10 $	1,50 $	2,49 $	3,99 $
CoreWeave	1,99 $	2,21 $	—	4,30 $
Google Cloud	2,48 $	3,67 $	—	8,10 $
AWS (p4d.24xl)	3,97 $ (8× A100)		—	12,29 $

† Unterbrechbar / Spot-Preis. Preise ohne Speicher und Egress. Verifiziert April 2026.

Die Preis-Leistungs-Rechnung

Angenommen, du trainierst ein Llama-3-70B-Modell und ein A100-SXM-Job dauert 100 Stunden bei Lambda Labs zu 1,50 $/h = 150 $ gesamt.

Auf H100 SXM (Lambda) schließt derselbe Job in ~42 Stunden zu 3,99 $/h ab = 167,58 $. Du zahlst mehr in absoluten Zahlen und sparst nur 58 Stunden. Wenn deine Zeit mehr als 0,30 $ pro eingesparter Stunde wert ist (was sie meistens ist), macht der H100 bei so langen Jobs Sinn.

Für ein 5-stündiges Fine-Tuning eines 7B-Modells auf Lambda A100 (1,10 $/h): 5,50 $ gesamt. Auf H100 PCIe (2,49 $/h) in ~3,5 h abgeschlossen: 8,72 $ gesamt. Hier gewinnt der A100 klar — du zahlst 59 % mehr für einen 1,4×-Speedup.

Wann du H100 wählen solltest

Training von 70B+-Modellen — wo die Multi-Node-NVLink-Geschwindigkeit entscheidend ist
Produktions-Inferenz mit hohem Durchsatz — FP8 und Flash Attention 3 liefern 2–3× mehr Tokens/Sekunde
Zeitkritische Experimente — wenn Iterationsgeschwindigkeit mehr zählt als Kosten pro Run
Sehr lange Trainingsläufe — wo der H100-Speedup die Kalenderzeit ausreichend komprimiert, um den Aufpreis zu rechtfertigen
FP8-quantisiertes Training — der A100 unterstützt kein FP8; der H100 trainiert große Modelle schneller bei geringerer Präzision

Wann der A100 die bessere Wahl ist

Fine-Tuning von 7B–30B-Modellen — der A100 80GB hat genug VRAM, und der 1,4–1,6×-Speedup rechtfertigt nicht den H100-Aufpreis
Budgetbewusste Forschung — A100 bei Lambda ist 55–60 % günstiger als H100 SXM
Stable Diffusion / Bildgenerierung — A100 80GB ist schon schnell genug; H100 bringt nur moderate Verbesserungen
Embedding-Modelle und Fine-Tuning — Durchsatzgewinne sind gering; A100 gewinnt bei den Kosten
Iteratives Prototyping — mit einem A100-Budget kannst du mehr Experimente fahren als mit weniger Experimenten auf H100

Verfügbarkeitshinweis: H100-SXM-Instanzen sind auf Community-Clouds wie RunPod und Vast.ai knapp. Wenn du garantierte Verfügbarkeit brauchst, bieten Lambda Labs und CoreWeave reservierte H100-Optionen mit SLAs.

Fazit

Für die meisten ML-Entwickler gilt: Starte mit dem A100 80GB. Er trifft 2026 den Sweet Spot aus VRAM-Kapazität, Preis und Verfügbarkeit. Sobald du dein Trainings-Setup validiert hast und skalieren musst — oder wenn die Trainingszeit selbst zum Engpass wird — ist der Wechsel auf H100 sinnvoll.

Die RunPod Community Cloud und Vast.ai bieten die günstigsten A100s (ab 0,79 $/h unterbrechbar), während Lambda Labs den zuverlässigsten On-Demand-Zugang zu A100 und H100 mit SSH in Sekunden bereitstellt.

Die richtige GPU für deinen Workload finden

Beantworte 3 kurze Fragen und erhalte eine persönliche Empfehlung — dauert 30 Sekunden.

GPU-Finder starten