Strategie 1: Zur Community Cloud wechseln (60–80 % sparen)
Der größte Hebel, den die meisten Entwickler übersehen: Hyperscaler (AWS, GCP, Azure) kosten 3–5× mehr als Community-GPU-Clouds für denselben GPU-Typ. Das ist die wirkungsvollste Änderung, die du vornehmen kannst.
| GPU | AWS/GCP | Community Cloud | Ersparnis |
|---|---|---|---|
| A100 40GB | 2,48 $/h (GCP) | 1,10 $/h (Lambda) | 55 % |
| A100 80GB | 3,67 $/h (GCP) | 1,50 $/h (Lambda) | 59 % |
| H100 SXM | 8,10 $/h (GCP) | 2,49 $/h (RunPod) | 69 % |
| RTX 4090 | Nicht verfügbar | 0,35 $/h (RunPod) | — |
Die besten Community Clouds: RunPod (starke Oberfläche, 100+ GPU-Typen), Lambda Labs (zuverlässiger SSH-Zugang) und Vast.ai (absolut günstigste Preise via Marktplatz).
Strategie 2: Spot-/Unterbrechbare Instanzen nutzen (40–70 % sparen)
Spot-Instanzen können unterbrochen werden, wenn der Host die GPU zurückbraucht. Im Gegenzug zahlst du 40–70 % weniger. Sie eignen sich perfekt für:
- Batch-Trainings-Jobs mit Checkpointing (Zustand alle 10–30 Minuten speichern)
- Hyperparameter-Sweeps, bei denen jeder einzelne Run entbehrlich ist
- Datenvorverarbeitung, die neu gestartet werden kann
- Evaluierungs-Runs, die keine Sitzungskontinuität benötigen
Auf Vast.ai kostet ein H100 80GB unterbrechbar 1,89 $/h statt 2,49 $/h On-Demand — eine Ersparnis von 24 %. Bei RunPod Community Cloud liegt der Rabatt gegenüber Secure Cloud typischerweise bei 30–50 %.
save_steps=200-Parameter des HuggingFace Trainers oder den ModelCheckpoint-Callback von PyTorch Lightning. Das Fortsetzen ab einem Checkpoint kostet weniger als 5 Minuten Overhead pro Neustart.Strategie 3: GPU-Größe anpassen / Right-Sizing (20–40 % sparen)
Einen A100 80GB zu mieten, wenn du nur 30 GB VRAM brauchst, ist rausgeworfenes Geld. Stimme den VRAM auf deinen tatsächlichen Modellbedarf ab:
| Modellgröße | Min. VRAM (BF16) | Passende GPU | Ungefähre Kosten |
|---|---|---|---|
| 7B Parameter | 16 GB | RTX 4090 (24 GB) | 0,35 $/h (RunPod) |
| 13B Parameter | 28 GB | A40 (48 GB) | 0,39 $/h (RunPod) |
| 30B Parameter | 60 GB | A100 80 GB | 1,50 $/h (Lambda) |
| 70B Parameter | 140 GB | 2× A100 80 GB | 3,00 $/h (Lambda) |
| 70B Parameter | 80 GB (mit Quant.) | H100 SXM + FP8 | 2,49 $/h (RunPod) |
VRAM-Anforderungen geschätzt für vollständiges Fine-Tuning in BF16. LoRA/QLoRA reduziert VRAM um das 4–8-Fache.
Strategie 4: QLoRA für Fine-Tuning verwenden (50–70 % VRAM sparen)
QLoRA (Quantized LoRA) ermöglicht das Fine-Tuning eines 70B-Modells auf einem einzelnen A100 80GB, indem das Basismodell in 4-Bit-NF4-Quantisierung geladen wird. Ohne QLoRA bräuchtest du 140 GB+ VRAM. Mit QLoRA kannst du Llama 3 70B auf einem 1,50 $/h A100 fine-tunen statt auf einem 4,30 $/h H100-Cluster.
Der Qualitätsverlust gegenüber vollständigem Fine-Tuning ist bei Instruction-Following- und Task-Adaptation-Aufgaben minimal. Für sehr leistungssensitive Anwendungsfälle (z. B. Code-Generierung) empfiehlt sich ein Ausgabenvergleich vor der endgültigen Entscheidung.
Strategie 5: Reservierte Instanzen für planbare Workloads (20–40 % sparen)
Wer täglich GPU-Workloads betreibt, amortisiert reservierte Instanzen schnell. Lambda-Labs-Reservierungen (1 Jahr Laufzeit) kosten ~30 % weniger als On-Demand:
| GPU | On-Demand | Reserviert (1 Jahr) | Monatliche Ersparnis (8 h/Tag) |
|---|---|---|---|
| A100 40 GB | 1,10 $/h | ~0,77 $/h | ~80 $/Monat |
| A100 80 GB | 1,50 $/h | ~1,05 $/h | ~110 $/Monat |
| H100 PCIe | 2,49 $/h | ~1,74 $/h | ~180 $/Monat |
Reservierte Instanzen lohnen sich, wenn du dauerhaft mehr als 5 Stunden täglich nutzt. Darunter bleibt On-Demand günstiger.
Strategie 6: Mixed-Precision-Training (Schneller = Günstiger)
Training in BF16 (Brain Float 16) statt FP32 ist auf A100/H100-GPUs mit Tensor Cores grob 2× schneller. Halbe Trainingszeit = halbe Cloud-Rechnung. In den meisten Frameworks reicht ein einzelner Parameter:
# HuggingFace Trainer
training_args = TrainingArguments(
bf16=True, # BF16 statt FP32 verwenden
tf32=True, # TF32 für Matrixmultiplikationen aktivieren
...
)Auf H100 kann FP8-Training (über Transformer Engine) bei großen Modellen einen weiteren 1,5–2×-Speedup bringen und die effektiven GPU-Kosten nochmals senken.
Strategie 7: Datenladen optimieren (Kostenlose Geschwindigkeitsgewinne)
GPU-Auslastung unter 80 % bedeutet, du zahlst für Leerlaufzeit. Typische Ursachen:
- Langsames Datenladen — erhöhe
num_workersim DataLoader (probiere 4–8) - Zu kleine Batch-Größen — nutze Gradient Accumulation, um effektiv mit großen Batches zu trainieren
- Sequenzielle Tokenisierung — tokenisiere deinen Datensatz vorab und cache ihn einmalig auf die Festplatte
- Kein Flash Attention — installiere
flash-attnfür 2–4× Speedup bei Transformer-Attention
Wenn die GPU-Auslastung dauerhaft unter 70 % liegt (prüfen mit nvidia-smi dmon), verschwendest du effektiv 30 %+ deines Compute-Budgets.
Zusammenfassung: Schnelle Maßnahmen
| Strategie | Mögliche Ersparnis | Aufwand |
|---|---|---|
| Zur Community Cloud wechseln | 60–80 % | Gering |
| Spot-/unterbrechbare Instanzen nutzen | 24–70 % | Mittel (Checkpointing ergänzen) |
| GPU-Größe anpassen (Right-Sizing) | 20–40 % | Gering |
| QLoRA für Fine-Tuning nutzen | 50–70 % VRAM | Gering |
| Reservierte Instanzen (>5 h/Tag) | 20–40 % | Gering |
| Mixed Precision (BF16/FP8) | 30–50 % Zeit | Sehr gering |
| Datenladen optimieren | 10–30 % Zeit | Mittel |
Die kosteneffizienteste GPU für deinen Workload finden
Nutze unseren GPU-Finder für eine persönliche Empfehlung in 30 Sekunden.