Die kurze Antwort

Für die meisten ML-Entwickler, die Modelle unter 30B Parametern trainieren oder Standard-Fine-Tuning-Workloads fahren, trifft der A100 80GB den Sweet Spot. Der H100 wird dann klar sinnvoll, wenn du 70B+-Modelle trainierst, hochvolumige Inferenz im großen Maßstab betreibst oder wenn die Wanduhrzeit tatsächlich mehr kostet als die GPU selbst.

Kurzfassung: Beim Fine-Tuning eines 7B–30B-Modells fängst du am besten mit einem A100 80GB an. Auf H100 wechselst du erst, wenn die Trainingsgeschwindigkeit zum Engpass wird — nicht früher.

Spezifikationsvergleich: Was wirklich zählt

SpezifikationA100 SXM 80GBA100 PCIe 80GBH100 SXM 80GBH100 PCIe 80GB
ArchitekturAmpereAmpereHopperHopper
VRAM80 GB HBM2e80 GB HBM2e80 GB HBM380 GB HBM2e
Speicherbandbreite2,0 TB/s2,0 TB/s3,35 TB/s2,0 TB/s
BF16 TFLOPS312312989756
FP8 TFLOPS1.9791.513
NVLink3. Gen (600 GB/s)4. Gen (900 GB/s)
TDP400 W300 W700 W350 W

Die Eckdaten auf einen Blick: Der H100 SXM bietet 3,2× mehr BF16-Rechenleistung und 67 % mehr Speicherbandbreite als der A100 SXM. Auf dem Papier ein deutlicher Sprung — in der Praxis erreicht dein Trainings-Loop diese theoretischen Grenzen jedoch nicht immer.

Reale Trainingsgeschwindigkeit

So sieht der Leistungsunterschied bei gängigen ML-Workloads tatsächlich aus, basierend auf Benchmarks von ML-Infrastrukturteams:

WorkloadA100 80GB (Zeit)H100 80GB (Zeit)Speedup
Llama 3 8B Fine-Tuning (1 GPU)100 %~60 %1,6×
Llama 3 70B Pre-Training (8 GPUs)100 %~40 %2,4×
SDXL Bildgenerierung100 %~55 %1,8×
GPT-4-Klasse Training (großer Cluster)100 %~35 %2,8×
Embedding-Modell Fine-Tuning100 %~70 %1,4×

Näherungswerte. Der tatsächliche Speedup hängt von Modellarchitektur, Batch-Größe und Optimizer ab.

Der H100 glänzt vor allem beim groß angelegten Multi-GPU-Training dank NVLink 4. Gen und bei durchsatzintensiver Inferenz, wo FP8-Präzision und höhere Bandbreite sich bezahlt machen. Beim Single-GPU-Fine-Tuning von 7B–13B-Modellen fällt der Speedup mit 1,4–1,6× eher moderat aus.

Cloud-Preise: Was du wirklich zahlst

Dies sind aktuelle On-Demand-Preise (April 2026) der wichtigsten GPU-Cloud-Anbieter:

AnbieterA100 40GB/hA100 80GB/hH100 PCIe/hH100 SXM/h
Vast.ai†0,55 $0,79 $1,89 $
RunPod1,59 $2,49 $
Lambda Labs1,10 $1,50 $2,49 $3,99 $
CoreWeave1,99 $2,21 $4,30 $
Google Cloud2,48 $3,67 $8,10 $
AWS (p4d.24xl)3,97 $ (8× A100)12,29 $

† Unterbrechbar / Spot-Preis. Preise ohne Speicher und Egress. Verifiziert April 2026.

Die Preis-Leistungs-Rechnung

Angenommen, du trainierst ein Llama-3-70B-Modell und ein A100-SXM-Job dauert 100 Stunden bei Lambda Labs zu 1,50 $/h = 150 $ gesamt.

Auf H100 SXM (Lambda) schließt derselbe Job in ~42 Stunden zu 3,99 $/h ab = 167,58 $. Du zahlst mehr in absoluten Zahlen und sparst nur 58 Stunden. Wenn deine Zeit mehr als 0,30 $ pro eingesparter Stunde wert ist (was sie meistens ist), macht der H100 bei so langen Jobs Sinn.

Für ein 5-stündiges Fine-Tuning eines 7B-Modells auf Lambda A100 (1,10 $/h): 5,50 $ gesamt. Auf H100 PCIe (2,49 $/h) in ~3,5 h abgeschlossen: 8,72 $ gesamt. Hier gewinnt der A100 klar — du zahlst 59 % mehr für einen 1,4×-Speedup.

Wann du H100 wählen solltest

  • Training von 70B+-Modellen — wo die Multi-Node-NVLink-Geschwindigkeit entscheidend ist
  • Produktions-Inferenz mit hohem Durchsatz — FP8 und Flash Attention 3 liefern 2–3× mehr Tokens/Sekunde
  • Zeitkritische Experimente — wenn Iterationsgeschwindigkeit mehr zählt als Kosten pro Run
  • Sehr lange Trainingsläufe — wo der H100-Speedup die Kalenderzeit ausreichend komprimiert, um den Aufpreis zu rechtfertigen
  • FP8-quantisiertes Training — der A100 unterstützt kein FP8; der H100 trainiert große Modelle schneller bei geringerer Präzision

Wann der A100 die bessere Wahl ist

  • Fine-Tuning von 7B–30B-Modellen — der A100 80GB hat genug VRAM, und der 1,4–1,6×-Speedup rechtfertigt nicht den H100-Aufpreis
  • Budgetbewusste Forschung — A100 bei Lambda ist 55–60 % günstiger als H100 SXM
  • Stable Diffusion / Bildgenerierung — A100 80GB ist schon schnell genug; H100 bringt nur moderate Verbesserungen
  • Embedding-Modelle und Fine-Tuning — Durchsatzgewinne sind gering; A100 gewinnt bei den Kosten
  • Iteratives Prototyping — mit einem A100-Budget kannst du mehr Experimente fahren als mit weniger Experimenten auf H100
Verfügbarkeitshinweis: H100-SXM-Instanzen sind auf Community-Clouds wie RunPod und Vast.ai knapp. Wenn du garantierte Verfügbarkeit brauchst, bieten Lambda Labs und CoreWeave reservierte H100-Optionen mit SLAs.

Fazit

Für die meisten ML-Entwickler gilt: Starte mit dem A100 80GB. Er trifft 2026 den Sweet Spot aus VRAM-Kapazität, Preis und Verfügbarkeit. Sobald du dein Trainings-Setup validiert hast und skalieren musst — oder wenn die Trainingszeit selbst zum Engpass wird — ist der Wechsel auf H100 sinnvoll.

Die RunPod Community Cloud und Vast.ai bieten die günstigsten A100s (ab 0,79 $/h unterbrechbar), während Lambda Labs den zuverlässigsten On-Demand-Zugang zu A100 und H100 mit SSH in Sekunden bereitstellt.

Die richtige GPU für deinen Workload finden

Beantworte 3 kurze Fragen und erhalte eine persönliche Empfehlung — dauert 30 Sekunden.

GPU-Finder starten