Die kurze Antwort
Für die meisten ML-Entwickler, die Modelle unter 30B Parametern trainieren oder Standard-Fine-Tuning-Workloads fahren, trifft der A100 80GB den Sweet Spot. Der H100 wird dann klar sinnvoll, wenn du 70B+-Modelle trainierst, hochvolumige Inferenz im großen Maßstab betreibst oder wenn die Wanduhrzeit tatsächlich mehr kostet als die GPU selbst.
Spezifikationsvergleich: Was wirklich zählt
| Spezifikation | A100 SXM 80GB | A100 PCIe 80GB | H100 SXM 80GB | H100 PCIe 80GB |
|---|---|---|---|---|
| Architektur | Ampere | Ampere | Hopper | Hopper |
| VRAM | 80 GB HBM2e | 80 GB HBM2e | 80 GB HBM3 | 80 GB HBM2e |
| Speicherbandbreite | 2,0 TB/s | 2,0 TB/s | 3,35 TB/s | 2,0 TB/s |
| BF16 TFLOPS | 312 | 312 | 989 | 756 |
| FP8 TFLOPS | — | — | 1.979 | 1.513 |
| NVLink | 3. Gen (600 GB/s) | — | 4. Gen (900 GB/s) | — |
| TDP | 400 W | 300 W | 700 W | 350 W |
Die Eckdaten auf einen Blick: Der H100 SXM bietet 3,2× mehr BF16-Rechenleistung und 67 % mehr Speicherbandbreite als der A100 SXM. Auf dem Papier ein deutlicher Sprung — in der Praxis erreicht dein Trainings-Loop diese theoretischen Grenzen jedoch nicht immer.
Reale Trainingsgeschwindigkeit
So sieht der Leistungsunterschied bei gängigen ML-Workloads tatsächlich aus, basierend auf Benchmarks von ML-Infrastrukturteams:
| Workload | A100 80GB (Zeit) | H100 80GB (Zeit) | Speedup |
|---|---|---|---|
| Llama 3 8B Fine-Tuning (1 GPU) | 100 % | ~60 % | 1,6× |
| Llama 3 70B Pre-Training (8 GPUs) | 100 % | ~40 % | 2,4× |
| SDXL Bildgenerierung | 100 % | ~55 % | 1,8× |
| GPT-4-Klasse Training (großer Cluster) | 100 % | ~35 % | 2,8× |
| Embedding-Modell Fine-Tuning | 100 % | ~70 % | 1,4× |
Näherungswerte. Der tatsächliche Speedup hängt von Modellarchitektur, Batch-Größe und Optimizer ab.
Der H100 glänzt vor allem beim groß angelegten Multi-GPU-Training dank NVLink 4. Gen und bei durchsatzintensiver Inferenz, wo FP8-Präzision und höhere Bandbreite sich bezahlt machen. Beim Single-GPU-Fine-Tuning von 7B–13B-Modellen fällt der Speedup mit 1,4–1,6× eher moderat aus.
Cloud-Preise: Was du wirklich zahlst
Dies sind aktuelle On-Demand-Preise (April 2026) der wichtigsten GPU-Cloud-Anbieter:
| Anbieter | A100 40GB/h | A100 80GB/h | H100 PCIe/h | H100 SXM/h |
|---|---|---|---|---|
| Vast.ai† | 0,55 $ | 0,79 $ | — | 1,89 $ |
| RunPod | — | 1,59 $ | — | 2,49 $ |
| Lambda Labs | 1,10 $ | 1,50 $ | 2,49 $ | 3,99 $ |
| CoreWeave | 1,99 $ | 2,21 $ | — | 4,30 $ |
| Google Cloud | 2,48 $ | 3,67 $ | — | 8,10 $ |
| AWS (p4d.24xl) | 3,97 $ (8× A100) | — | 12,29 $ | |
† Unterbrechbar / Spot-Preis. Preise ohne Speicher und Egress. Verifiziert April 2026.
Die Preis-Leistungs-Rechnung
Angenommen, du trainierst ein Llama-3-70B-Modell und ein A100-SXM-Job dauert 100 Stunden bei Lambda Labs zu 1,50 $/h = 150 $ gesamt.
Auf H100 SXM (Lambda) schließt derselbe Job in ~42 Stunden zu 3,99 $/h ab = 167,58 $. Du zahlst mehr in absoluten Zahlen und sparst nur 58 Stunden. Wenn deine Zeit mehr als 0,30 $ pro eingesparter Stunde wert ist (was sie meistens ist), macht der H100 bei so langen Jobs Sinn.
Für ein 5-stündiges Fine-Tuning eines 7B-Modells auf Lambda A100 (1,10 $/h): 5,50 $ gesamt. Auf H100 PCIe (2,49 $/h) in ~3,5 h abgeschlossen: 8,72 $ gesamt. Hier gewinnt der A100 klar — du zahlst 59 % mehr für einen 1,4×-Speedup.
Wann du H100 wählen solltest
- Training von 70B+-Modellen — wo die Multi-Node-NVLink-Geschwindigkeit entscheidend ist
- Produktions-Inferenz mit hohem Durchsatz — FP8 und Flash Attention 3 liefern 2–3× mehr Tokens/Sekunde
- Zeitkritische Experimente — wenn Iterationsgeschwindigkeit mehr zählt als Kosten pro Run
- Sehr lange Trainingsläufe — wo der H100-Speedup die Kalenderzeit ausreichend komprimiert, um den Aufpreis zu rechtfertigen
- FP8-quantisiertes Training — der A100 unterstützt kein FP8; der H100 trainiert große Modelle schneller bei geringerer Präzision
Wann der A100 die bessere Wahl ist
- Fine-Tuning von 7B–30B-Modellen — der A100 80GB hat genug VRAM, und der 1,4–1,6×-Speedup rechtfertigt nicht den H100-Aufpreis
- Budgetbewusste Forschung — A100 bei Lambda ist 55–60 % günstiger als H100 SXM
- Stable Diffusion / Bildgenerierung — A100 80GB ist schon schnell genug; H100 bringt nur moderate Verbesserungen
- Embedding-Modelle und Fine-Tuning — Durchsatzgewinne sind gering; A100 gewinnt bei den Kosten
- Iteratives Prototyping — mit einem A100-Budget kannst du mehr Experimente fahren als mit weniger Experimenten auf H100
Fazit
Für die meisten ML-Entwickler gilt: Starte mit dem A100 80GB. Er trifft 2026 den Sweet Spot aus VRAM-Kapazität, Preis und Verfügbarkeit. Sobald du dein Trainings-Setup validiert hast und skalieren musst — oder wenn die Trainingszeit selbst zum Engpass wird — ist der Wechsel auf H100 sinnvoll.
Die RunPod Community Cloud und Vast.ai bieten die günstigsten A100s (ab 0,79 $/h unterbrechbar), während Lambda Labs den zuverlässigsten On-Demand-Zugang zu A100 und H100 mit SSH in Sekunden bereitstellt.
Die richtige GPU für deinen Workload finden
Beantworte 3 kurze Fragen und erhalte eine persönliche Empfehlung — dauert 30 Sekunden.
GPU-Finder starten