VRAM-Anforderungen für populäre Modelle

Bevor du eine Cloud-GPU wählst, kennst du am besten die VRAM-Untergrenze deines Modells. Zu wenig VRAM führt zu Out-of-Memory-Fehlern; doppelt so viel wie nötig verschwendet Geld.

ModellMin. VRAMOptimaler VRAMHinweise
SDXL (1024px)8 GB12–16 GBLäuft mit 6 GB bei aktiviertem Attention Slicing
SDXL + ControlNet10 GB16–24 GBMehrere ControlNets benötigen mehr VRAM
FLUX.1 Dev (fp8)12 GB16–24 GBVolle Präzision benötigt 24 GB
FLUX.1 Schnell8 GB12–16 GBSchnellere Generierung, weniger Schritte
FLUX.1 + LoRA16 GB24 GBLoRA-Fine-Tuning braucht Puffer
SD 3.5 Large10 GB16 GB8B Parameter, gute Qualität
ComfyUI + mehrere Modelle16 GB24–48 GBMehrere Checkpoints gleichzeitig laden

Die RTX 4090 (24 GB VRAM) bewältigt 2026 nahezu jedes Consumer-Modell. Für Produktions-Pipelines mit mehreren gleichzeitig geladenen Modellen eliminiert eine A40 (48 GB) oder A100 80 GB OOM-Fehler vollständig.

Geschwindigkeits-Benchmarks: Bilder pro Minute

Gemessen bei SDXL 1024×1024, 20 Sampling-Schritte, DPM++ 2M Karras:

GPUSDXL (Bilder/Min.)FLUX.1 Dev (Bilder/Min.)Cloud-Kosten/h$/1.000 Bilder
RTX 3090 (24 GB)~14~30,20 $ (RunPod)0,24 $
RTX 4090 (24 GB)~26~60,35 $ (RunPod)0,22 $
A40 (48 GB)~22~50,39 $ (RunPod)0,30 $
A100 80 GB~32~81,50 $ (Lambda)0,78 $
H100 SXM (80 GB)~55~142,49 $ (RunPod)0,76 $

Näherungswerte mit aktiviertem xFormers/Flash Attention. Reale Geschwindigkeiten variieren je nach Systemkonfiguration.

Preis-Leistungs-Tipp: Die RTX 4090 bei RunPod (0,35 $/h) liefert die niedrigsten Kosten pro Bild für SDXL — günstiger als ein H100. Auch für FLUX.1 ist die RTX 4090 der Sweet Spot.

Beste GPU-Cloud-Setups für Bildgenerierung

1. Budget / Experimente: RTX 4090 auf RunPod Community

0,35 $/h · 24 GB VRAM · ~26 SDXL-Bilder/Minute

Für die meisten Bildgenerierungs-Workflows ist die RunPod Community Cloud mit RTX 4090 die beste Preis-Leistungs-Option. RunPods Template-Bibliothek enthält fertige ComfyUI- und AUTOMATIC1111-Images — du generierst Bilder innerhalb von 2–3 Minuten nach dem Starten eines Pods.

Beim Community-Tier kann es gelegentlich zu Unterbrechungen kommen. Für gelegentliche Generierungs-Sessions ist das kein Problem. Für Produktions-Pipelines lieber RunPod Secure Cloud nutzen (0,44 $/h für RTX 4090).

2. Power-User / FLUX-LoRA-Fine-Tuning: A40 auf RunPod

0,39 $/h · 48 GB VRAM · Ideal für Multi-Modell-ComfyUI-Workflows

Die A40 48 GB ist der Sweet Spot für anspruchsvolle ComfyUI-Workflows, die mehrere ControlNets, LoRA-Stacks und FLUX-Modelle gleichzeitig laden. Der zusätzliche VRAM-Puffer eliminiert die OOM-Fehler, die 24-GB-GPUs in komplexen Pipelines plagen.

Bei 0,39 $/h auf RunPod kostet sie nur 0,04 $/h mehr als die RTX 4090 — absolut lohnenswert, wenn du an Speichergrenzen stößt.

3. Hoher Durchsatz / Produktion: A100 80 GB bei Lambda Labs

1,50 $/h · 80 GB VRAM · Zuverlässig, keine Unterbrechungen

Für Produktions-Bildgenerierungs-APIs, die echte Nutzer bedienen, liefert die Lambda Labs A100 80 GB 32 SDXL-Bilder/Minute mit garantierter Verfügbarkeit. Keine Community-Cloud-Zuverlässigkeitsprobleme, konstanter Durchsatz.

Ab einem gewissen Maßstab (>5.000 Bilder/Tag) überwiegt das den operativen Aufwand, der mit Spot-Instanz-Unterbrechungen auf Community Clouds einhergeht.

4. Günstigste Option: Vast.ai Unterbrechbar

Ab 0,08–0,20 $/h (RTX 3090 unterbrechbar) · Bestes absolutes Preis-Leistungs-Verhältnis

Vast.ais unterbrechbarer Marktplatz hat oft RTX 3090s ab 0,08 $/h und RTX 4090s ab 0,16 $/h. Für nicht zeitkritische Batch-Generierung ist das 2026 die absolut günstigste Option.

Vorbehalt: Instanzen können ohne Vorwarnung verschwinden. Nur für Batches geeignet, die du neu starten kannst. Generierte Bilder immer in Echtzeit auf externen Speicher sichern (Cloudflare R2, S3).

Empfohlenes Setup für ComfyUI auf RunPod

Das ist der schnellste Weg, ComfyUI mit SDXL- und FLUX-Modellen zum Laufen zu bringen:

  1. Gehe zu RunPod.io und erstelle ein Konto
  2. Klicke auf DeployGPU Pod
  3. Wähle RTX 4090 oder A40 (Preis und Verfügbarkeit prüfen)
  4. Suche in den Templates nach ComfyUI (offiziell oder Community)
  5. Container-Festplatte auf 50 GB+ setzen und ein persistentes Volume für Modelle hinzufügen
  6. Über die Web-UI oder SSH verbinden und den ComfyUI-Server starten

Gesamte Setup-Zeit: 3–5 Minuten bis zum ersten Bild. Deine Modelldateien bleiben über Pod-Neustarts hinweg auf dem Volume gespeichert — Checkpoints werden nur einmal heruntergeladen.

Schnelle Empfehlungsübersicht

AnwendungsfallEmpfohlene GPUAnbieterKosten
Gelegentliche SDXL-GenerierungRTX 3090 / 4090RunPod Community0,20–0,35 $/h
FLUX.1 Dev / SchnellRTX 4090 (24 GB)RunPod Community0,35 $/h
FLUX LoRA Fine-TuningA40 (48 GB)RunPod0,39 $/h
Multi-Modell-ComfyUIA40 / A100 80 GBRunPod / Lambda0,39–1,50 $/h
Produktions-API (>99 % Verfügbarkeit)A100 80 GBLambda Labs1,50 $/h
Günstigste Batch-GenerierungRTX 3090 (unterbrechbar)Vast.ai0,08–0,20 $/h

Deine ideale GPU für Bildgenerierung finden

Gib dein Modell und Budget an — du erhältst eine persönliche Cloud-Empfehlung in 30 Sekunden.