Strategie 1: Zur Community Cloud wechseln (60–80 % sparen)

Der größte Hebel, den die meisten Entwickler übersehen: Hyperscaler (AWS, GCP, Azure) kosten 3–5× mehr als Community-GPU-Clouds für denselben GPU-Typ. Das ist die wirkungsvollste Änderung, die du vornehmen kannst.

GPUAWS/GCPCommunity CloudErsparnis
A100 40GB2,48 $/h (GCP)1,10 $/h (Lambda)55 %
A100 80GB3,67 $/h (GCP)1,50 $/h (Lambda)59 %
H100 SXM8,10 $/h (GCP)2,49 $/h (RunPod)69 %
RTX 4090Nicht verfügbar0,35 $/h (RunPod)

Die besten Community Clouds: RunPod (starke Oberfläche, 100+ GPU-Typen), Lambda Labs (zuverlässiger SSH-Zugang) und Vast.ai (absolut günstigste Preise via Marktplatz).

Strategie 2: Spot-/Unterbrechbare Instanzen nutzen (40–70 % sparen)

Spot-Instanzen können unterbrochen werden, wenn der Host die GPU zurückbraucht. Im Gegenzug zahlst du 40–70 % weniger. Sie eignen sich perfekt für:

  • Batch-Trainings-Jobs mit Checkpointing (Zustand alle 10–30 Minuten speichern)
  • Hyperparameter-Sweeps, bei denen jeder einzelne Run entbehrlich ist
  • Datenvorverarbeitung, die neu gestartet werden kann
  • Evaluierungs-Runs, die keine Sitzungskontinuität benötigen

Auf Vast.ai kostet ein H100 80GB unterbrechbar 1,89 $/h statt 2,49 $/h On-Demand — eine Ersparnis von 24 %. Bei RunPod Community Cloud liegt der Rabatt gegenüber Secure Cloud typischerweise bei 30–50 %.

Profi-Tipp: Implementiere das Checkpoint-Speichern, bevor du auf Spot-Instanzen umstellst. Verwende den save_steps=200-Parameter des HuggingFace Trainers oder den ModelCheckpoint-Callback von PyTorch Lightning. Das Fortsetzen ab einem Checkpoint kostet weniger als 5 Minuten Overhead pro Neustart.

Strategie 3: GPU-Größe anpassen / Right-Sizing (20–40 % sparen)

Einen A100 80GB zu mieten, wenn du nur 30 GB VRAM brauchst, ist rausgeworfenes Geld. Stimme den VRAM auf deinen tatsächlichen Modellbedarf ab:

ModellgrößeMin. VRAM (BF16)Passende GPUUngefähre Kosten
7B Parameter16 GBRTX 4090 (24 GB)0,35 $/h (RunPod)
13B Parameter28 GBA40 (48 GB)0,39 $/h (RunPod)
30B Parameter60 GBA100 80 GB1,50 $/h (Lambda)
70B Parameter140 GB2× A100 80 GB3,00 $/h (Lambda)
70B Parameter80 GB (mit Quant.)H100 SXM + FP82,49 $/h (RunPod)

VRAM-Anforderungen geschätzt für vollständiges Fine-Tuning in BF16. LoRA/QLoRA reduziert VRAM um das 4–8-Fache.

Strategie 4: QLoRA für Fine-Tuning verwenden (50–70 % VRAM sparen)

QLoRA (Quantized LoRA) ermöglicht das Fine-Tuning eines 70B-Modells auf einem einzelnen A100 80GB, indem das Basismodell in 4-Bit-NF4-Quantisierung geladen wird. Ohne QLoRA bräuchtest du 140 GB+ VRAM. Mit QLoRA kannst du Llama 3 70B auf einem 1,50 $/h A100 fine-tunen statt auf einem 4,30 $/h H100-Cluster.

Der Qualitätsverlust gegenüber vollständigem Fine-Tuning ist bei Instruction-Following- und Task-Adaptation-Aufgaben minimal. Für sehr leistungssensitive Anwendungsfälle (z. B. Code-Generierung) empfiehlt sich ein Ausgabenvergleich vor der endgültigen Entscheidung.

Strategie 5: Reservierte Instanzen für planbare Workloads (20–40 % sparen)

Wer täglich GPU-Workloads betreibt, amortisiert reservierte Instanzen schnell. Lambda-Labs-Reservierungen (1 Jahr Laufzeit) kosten ~30 % weniger als On-Demand:

GPUOn-DemandReserviert (1 Jahr)Monatliche Ersparnis (8 h/Tag)
A100 40 GB1,10 $/h~0,77 $/h~80 $/Monat
A100 80 GB1,50 $/h~1,05 $/h~110 $/Monat
H100 PCIe2,49 $/h~1,74 $/h~180 $/Monat

Reservierte Instanzen lohnen sich, wenn du dauerhaft mehr als 5 Stunden täglich nutzt. Darunter bleibt On-Demand günstiger.

Strategie 6: Mixed-Precision-Training (Schneller = Günstiger)

Training in BF16 (Brain Float 16) statt FP32 ist auf A100/H100-GPUs mit Tensor Cores grob 2× schneller. Halbe Trainingszeit = halbe Cloud-Rechnung. In den meisten Frameworks reicht ein einzelner Parameter:

# HuggingFace Trainer
training_args = TrainingArguments(
    bf16=True,           # BF16 statt FP32 verwenden
    tf32=True,           # TF32 für Matrixmultiplikationen aktivieren
    ...
)

Auf H100 kann FP8-Training (über Transformer Engine) bei großen Modellen einen weiteren 1,5–2×-Speedup bringen und die effektiven GPU-Kosten nochmals senken.

Strategie 7: Datenladen optimieren (Kostenlose Geschwindigkeitsgewinne)

GPU-Auslastung unter 80 % bedeutet, du zahlst für Leerlaufzeit. Typische Ursachen:

  • Langsames Datenladen — erhöhe num_workers im DataLoader (probiere 4–8)
  • Zu kleine Batch-Größen — nutze Gradient Accumulation, um effektiv mit großen Batches zu trainieren
  • Sequenzielle Tokenisierung — tokenisiere deinen Datensatz vorab und cache ihn einmalig auf die Festplatte
  • Kein Flash Attention — installiere flash-attn für 2–4× Speedup bei Transformer-Attention

Wenn die GPU-Auslastung dauerhaft unter 70 % liegt (prüfen mit nvidia-smi dmon), verschwendest du effektiv 30 %+ deines Compute-Budgets.

Zusammenfassung: Schnelle Maßnahmen

StrategieMögliche ErsparnisAufwand
Zur Community Cloud wechseln60–80 %Gering
Spot-/unterbrechbare Instanzen nutzen24–70 %Mittel (Checkpointing ergänzen)
GPU-Größe anpassen (Right-Sizing)20–40 %Gering
QLoRA für Fine-Tuning nutzen50–70 % VRAMGering
Reservierte Instanzen (>5 h/Tag)20–40 %Gering
Mixed Precision (BF16/FP8)30–50 % ZeitSehr gering
Datenladen optimieren10–30 % ZeitMittel

Die kosteneffizienteste GPU für deinen Workload finden

Nutze unseren GPU-Finder für eine persönliche Empfehlung in 30 Sekunden.