Unabhängiger Vergleich Aktualisiert April 2026 20 GPU-Anbieter getestet Echte Stundenpreise

L40S-Cloud-Vergleich · Mai 2026

Beste L40S-Cloud-Anbieter 2026

Die Inferenz-GPU 2026 — 48 GB GDDR6, 733 TFLOPS BF16, konzipiert für SDXL und LLM-Serving. 7 Clouds verglichen. Ab 0,80 $/h.

Der L40S-Markt im Mai 2026

Die NVIDIA L40S 48GB ist 2026 für KI-Inferenz und Medien-Workloads konzipiert. Anders als H100/H200, die HBM-Bandbreite für Training priorisieren, verwendet die L40S GDDR6 — was ihr ~733 TFLOPS BF16-Durchsatz, ausgezeichnete Preis-pro-Token-Ökonomie und 48 GB VRAM zu einem Bruchteil der H-Serie-Kosten gibt.

Bei 7 GPU-Clouds reichen die L40S-Stundenpreise von 0,80 $/h bis 2,00 $/h — etwa 3–5× günstiger als H100 bei vergleichbarem VRAM. Für Multi-Tenant-Inferenz-Flotten, SDXL-Pipelines und Video-KI-Workloads, die keine HBM-Bandbreite benötigen, ist die L40S 2026 die Standardwahl seriöser ML-Infrastruktur-Teams.

Inferenz-Ökonomie gewinnt jedes Mal. Bei 0,80–1,20 $/h pro GPU kannst du 4–6 L40S-Instanzen für den Preis einer H100 betreiben — und für das Serving quantisierter 13B- oder 34B-Modelle übertrifft der Gesamt­durchsatz leicht eine einzelne H100. Together AI, Hyperstack, Crusoe, Nebius, TensorDock, Lyceum und Scaleway konkurrieren um dieses Segment.

AnbieterStartpreisTop-GPUsStärkenBewertungCTA
H Hyperstackab 0,11 $/hRTX A6000, A100 80GB, H100 ≤80GB
  • Hervorragende Einsteigerpreise für A6000
  • Vollständiger Networking-Stack (VPC, Firewall, NAT)
★★★★☆ 4.3Zu den Preisen
T TensorDockab 0,21 $/hRTX 4090, RTX 3090, A100 80GB ≤80GB
  • Mit dem günstigsten H100-Zugang 2026
  • Großes Host-Netzwerk = bessere Verfügbarkeit
★★★★☆ 4.2Zu den Preisen
C Crusoeab 0,40 $/hH100, H200, B200 ≤192GB
  • Mit am günstigsten für H200-Zugang — ab 2,10 $/h
  • B200 verfügbar, während andere Clouds Wartelisten haben
★★★★☆ 4.4Zu den Preisen
Scalewayab €0,83/hL4, L40S, H100 ≤80GB
  • Starke EU-Präsenz (Paris + Amsterdam)
  • Reife Cloud-Plattform (S3, k8s, Networking)
★★★★☆ 4.0Zu den Preisen
T Together AIab 1,49 $/hH100, H200, A100 80GB ≤141GB
  • Erstklassige Inferenz-Performance
  • Exzellente Open-Source-Modell-Abdeckung
★★★★☆ 4.4Zu den Preisen
#1
H

Hyperstack

Globaler GPU-Cloud-Spezialist — H100, A100 80GB und L40 ab 0,11 $/h

ab 0,11 $/h ★ 4.3
  • Hervorragende Einsteigerpreise für A6000
  • Vollständiger Networking-Stack (VPC, Firewall, NAT)
Zu den Preisen →
Preis aktuell?
#2
T

TensorDock

GPU-Cloud-Marktplatz — RTX 4090 ab 0,21 $/h, H100 ab 1,99 $/h

ab 0,21 $/h ★ 4.2
  • Mit dem günstigsten H100-Zugang 2026
  • Großes Host-Netzwerk = bessere Verfügbarkeit
Zu den Preisen →
Preis aktuell?
#3
L

Lyceum

EU-souveräne KI-Cloud — H100 bis H200 mit voller Datenresidenz

ab 0,39 $/h ★ 4.2
  • Starke EU-Datenresidenz (kein US-Transit)
  • H200-Verfügbarkeit in Europa
Zu den Preisen →
Preis aktuell?
#4
C

Crusoe

Klima-positive GPU-Cloud — H100, H200, B200 und MI300X auf grüner Energie

ab 0,40 $/h ★ 4.4
  • Mit am günstigsten für H200-Zugang — ab 2,10 $/h
  • B200 verfügbar, während andere Clouds Wartelisten haben
Zu den Preisen →
Preis aktuell?
#5

Scaleway

Europäische Cloud mit H100 SXM und L40S — Paris und Amsterdam

ab €0,83/h ★ 4.0
  • Starke EU-Präsenz (Paris + Amsterdam)
  • Reife Cloud-Plattform (S3, k8s, Networking)
Zu den Preisen →
Preis aktuell?
#6
T

Together AI

Inferenz-fokussierte GPU-Cloud — H100/H200 mit optimierten Serving-Stacks

ab 1,49 $/h ★ 4.4
  • Erstklassige Inferenz-Performance
  • Exzellente Open-Source-Modell-Abdeckung
Zu den Preisen →
Preis aktuell?

Häufige Fragen

Welche Cloud hat 2026 die günstigste L40S? +

TensorDock bietet L40S ab 0,80 $/h an, oft der niedrigste Spot-Markt-Preis. Hyperstack und Together AI landen typischerweise bei 1,00–1,30 $/h für zuverlässiges On-Demand. Scaleway ist mit 2,00 $/h am teuersten, bietet aber EU-Datenhaltung und Enterprise-Verträge.

L40S vs. H100 — was soll ich für Inferenz mieten? +

Für Inferenz von Modellen bis zu 34B Parametern ist die L40S fast immer günstiger pro Token. Bei 1,00 $/h vs. 2,50 $/h für H100 kannst du mit dem gleichen Budget 2,5× mehr L40S-GPUs betreiben. H100 gewinnt beim rohen Durchsatz pro GPU, aber L40S gewinnt beim Durchsatz pro Dollar — entscheidend für kostensensitive Inferenz-APIs.

Für welche Workloads ist die L40S am besten? +

SDXL- und Video-Diffusions-Inferenz, Multi-Tenant-LLM-Serving (Modelle bis 34B), Whisper/Speech-to-Text im großen Maßstab, Echtzeit-Rendering-Pipelines und alle Workloads, bei denen du 48 GB VRAM zu minimalen Kosten benötigst. Die L40S eignet sich auch gut für ComfyUI-Multi-Modell-Workflows, bei denen mehrere Modelle gleichzeitig geladen werden.

L40S vs. A100 80GB — was hat besseres Preis-Leistungs-Verhältnis? +

L40S hat weniger Speicherbandbreite als A100 80GB, kostet aber 40–60 % weniger pro Stunde. Für Inferenz quantisierter Modelle erreicht oder übertrifft L40S den A100-Durchsatz. Für Training ist A100 80GB dank HBM-Bandbreite schneller. Wenn dein Workload inferenz-dominiert ist, ist L40S das bessere Preis-Leistungs-Verhältnis.

Wie viele L40S-GPUs brauche ich für SDXL-Inferenz im großen Maßstab? +

Eine einzelne L40S kann bei Batch=4 8–12 SDXL-XL-Bilder pro Sekunde liefern. Für eine 100-Req/Min-API sind 1–2 L40S-GPUs ausreichend. Für Video-Diffusion (z.B. Wan2.1 oder CogVideoX) plane 1 L40S pro Video-Render-Job. Hyperstack und Together AI unterstützen beide Multi-GPU-L40S-Konfigurationen.