VRAM-Anforderungen für populäre Modelle
Bevor du eine Cloud-GPU wählst, kennst du am besten die VRAM-Untergrenze deines Modells. Zu wenig VRAM führt zu Out-of-Memory-Fehlern; doppelt so viel wie nötig verschwendet Geld.
| Modell | Min. VRAM | Optimaler VRAM | Hinweise |
|---|---|---|---|
| SDXL (1024px) | 8 GB | 12–16 GB | Läuft mit 6 GB bei aktiviertem Attention Slicing |
| SDXL + ControlNet | 10 GB | 16–24 GB | Mehrere ControlNets benötigen mehr VRAM |
| FLUX.1 Dev (fp8) | 12 GB | 16–24 GB | Volle Präzision benötigt 24 GB |
| FLUX.1 Schnell | 8 GB | 12–16 GB | Schnellere Generierung, weniger Schritte |
| FLUX.1 + LoRA | 16 GB | 24 GB | LoRA-Fine-Tuning braucht Puffer |
| SD 3.5 Large | 10 GB | 16 GB | 8B Parameter, gute Qualität |
| ComfyUI + mehrere Modelle | 16 GB | 24–48 GB | Mehrere Checkpoints gleichzeitig laden |
Die RTX 4090 (24 GB VRAM) bewältigt 2026 nahezu jedes Consumer-Modell. Für Produktions-Pipelines mit mehreren gleichzeitig geladenen Modellen eliminiert eine A40 (48 GB) oder A100 80 GB OOM-Fehler vollständig.
Geschwindigkeits-Benchmarks: Bilder pro Minute
Gemessen bei SDXL 1024×1024, 20 Sampling-Schritte, DPM++ 2M Karras:
| GPU | SDXL (Bilder/Min.) | FLUX.1 Dev (Bilder/Min.) | Cloud-Kosten/h | $/1.000 Bilder |
|---|---|---|---|---|
| RTX 3090 (24 GB) | ~14 | ~3 | 0,20 $ (RunPod) | 0,24 $ |
| RTX 4090 (24 GB) | ~26 | ~6 | 0,35 $ (RunPod) | 0,22 $ |
| A40 (48 GB) | ~22 | ~5 | 0,39 $ (RunPod) | 0,30 $ |
| A100 80 GB | ~32 | ~8 | 1,50 $ (Lambda) | 0,78 $ |
| H100 SXM (80 GB) | ~55 | ~14 | 2,49 $ (RunPod) | 0,76 $ |
Näherungswerte mit aktiviertem xFormers/Flash Attention. Reale Geschwindigkeiten variieren je nach Systemkonfiguration.
Beste GPU-Cloud-Setups für Bildgenerierung
1. Budget / Experimente: RTX 4090 auf RunPod Community
0,35 $/h · 24 GB VRAM · ~26 SDXL-Bilder/Minute
Für die meisten Bildgenerierungs-Workflows ist die RunPod Community Cloud mit RTX 4090 die beste Preis-Leistungs-Option. RunPods Template-Bibliothek enthält fertige ComfyUI- und AUTOMATIC1111-Images — du generierst Bilder innerhalb von 2–3 Minuten nach dem Starten eines Pods.
Beim Community-Tier kann es gelegentlich zu Unterbrechungen kommen. Für gelegentliche Generierungs-Sessions ist das kein Problem. Für Produktions-Pipelines lieber RunPod Secure Cloud nutzen (0,44 $/h für RTX 4090).
2. Power-User / FLUX-LoRA-Fine-Tuning: A40 auf RunPod
0,39 $/h · 48 GB VRAM · Ideal für Multi-Modell-ComfyUI-Workflows
Die A40 48 GB ist der Sweet Spot für anspruchsvolle ComfyUI-Workflows, die mehrere ControlNets, LoRA-Stacks und FLUX-Modelle gleichzeitig laden. Der zusätzliche VRAM-Puffer eliminiert die OOM-Fehler, die 24-GB-GPUs in komplexen Pipelines plagen.
Bei 0,39 $/h auf RunPod kostet sie nur 0,04 $/h mehr als die RTX 4090 — absolut lohnenswert, wenn du an Speichergrenzen stößt.
3. Hoher Durchsatz / Produktion: A100 80 GB bei Lambda Labs
1,50 $/h · 80 GB VRAM · Zuverlässig, keine Unterbrechungen
Für Produktions-Bildgenerierungs-APIs, die echte Nutzer bedienen, liefert die Lambda Labs A100 80 GB 32 SDXL-Bilder/Minute mit garantierter Verfügbarkeit. Keine Community-Cloud-Zuverlässigkeitsprobleme, konstanter Durchsatz.
Ab einem gewissen Maßstab (>5.000 Bilder/Tag) überwiegt das den operativen Aufwand, der mit Spot-Instanz-Unterbrechungen auf Community Clouds einhergeht.
4. Günstigste Option: Vast.ai Unterbrechbar
Ab 0,08–0,20 $/h (RTX 3090 unterbrechbar) · Bestes absolutes Preis-Leistungs-Verhältnis
Vast.ais unterbrechbarer Marktplatz hat oft RTX 3090s ab 0,08 $/h und RTX 4090s ab 0,16 $/h. Für nicht zeitkritische Batch-Generierung ist das 2026 die absolut günstigste Option.
Vorbehalt: Instanzen können ohne Vorwarnung verschwinden. Nur für Batches geeignet, die du neu starten kannst. Generierte Bilder immer in Echtzeit auf externen Speicher sichern (Cloudflare R2, S3).
Empfohlenes Setup für ComfyUI auf RunPod
Das ist der schnellste Weg, ComfyUI mit SDXL- und FLUX-Modellen zum Laufen zu bringen:
- Gehe zu RunPod.io und erstelle ein Konto
- Klicke auf Deploy → GPU Pod
- Wähle RTX 4090 oder A40 (Preis und Verfügbarkeit prüfen)
- Suche in den Templates nach ComfyUI (offiziell oder Community)
- Container-Festplatte auf 50 GB+ setzen und ein persistentes Volume für Modelle hinzufügen
- Über die Web-UI oder SSH verbinden und den ComfyUI-Server starten
Gesamte Setup-Zeit: 3–5 Minuten bis zum ersten Bild. Deine Modelldateien bleiben über Pod-Neustarts hinweg auf dem Volume gespeichert — Checkpoints werden nur einmal heruntergeladen.
Schnelle Empfehlungsübersicht
| Anwendungsfall | Empfohlene GPU | Anbieter | Kosten |
|---|---|---|---|
| Gelegentliche SDXL-Generierung | RTX 3090 / 4090 | RunPod Community | 0,20–0,35 $/h |
| FLUX.1 Dev / Schnell | RTX 4090 (24 GB) | RunPod Community | 0,35 $/h |
| FLUX LoRA Fine-Tuning | A40 (48 GB) | RunPod | 0,39 $/h |
| Multi-Modell-ComfyUI | A40 / A100 80 GB | RunPod / Lambda | 0,39–1,50 $/h |
| Produktions-API (>99 % Verfügbarkeit) | A100 80 GB | Lambda Labs | 1,50 $/h |
| Günstigste Batch-Generierung | RTX 3090 (unterbrechbar) | Vast.ai | 0,08–0,20 $/h |
Deine ideale GPU für Bildgenerierung finden
Gib dein Modell und Budget an — du erhältst eine persönliche Cloud-Empfehlung in 30 Sekunden.