Hyperstack
Globaler GPU-Cloud-Spezialist — H100, A100 80GB und L40 ab 0,11 $/h
- Hervorragende Einsteigerpreise für A6000
- Vollständiger Networking-Stack (VPC, Firewall, NAT)
L40S-Cloud-Vergleich · Mai 2026
Die Inferenz-GPU 2026 — 48 GB GDDR6, 733 TFLOPS BF16, konzipiert für SDXL und LLM-Serving. 7 Clouds verglichen. Ab 0,80 $/h.
Die NVIDIA L40S 48GB ist 2026 für KI-Inferenz und Medien-Workloads konzipiert. Anders als H100/H200, die HBM-Bandbreite für Training priorisieren, verwendet die L40S GDDR6 — was ihr ~733 TFLOPS BF16-Durchsatz, ausgezeichnete Preis-pro-Token-Ökonomie und 48 GB VRAM zu einem Bruchteil der H-Serie-Kosten gibt.
Bei 7 GPU-Clouds reichen die L40S-Stundenpreise von 0,80 $/h bis 2,00 $/h — etwa 3–5× günstiger als H100 bei vergleichbarem VRAM. Für Multi-Tenant-Inferenz-Flotten, SDXL-Pipelines und Video-KI-Workloads, die keine HBM-Bandbreite benötigen, ist die L40S 2026 die Standardwahl seriöser ML-Infrastruktur-Teams.
Inferenz-Ökonomie gewinnt jedes Mal. Bei 0,80–1,20 $/h pro GPU kannst du 4–6 L40S-Instanzen für den Preis einer H100 betreiben — und für das Serving quantisierter 13B- oder 34B-Modelle übertrifft der Gesamtdurchsatz leicht eine einzelne H100. Together AI, Hyperstack, Crusoe, Nebius, TensorDock, Lyceum und Scaleway konkurrieren um dieses Segment.
| Anbieter | Startpreis | Top-GPUs | Stärken | Bewertung | CTA |
|---|---|---|---|---|---|
| Hyperstack | ab 0,11 $/h | RTX A6000, A100 80GB, H100 ≤80GB |
| ★★★★☆ | Zu den Preisen |
| TensorDock | ab 0,21 $/h | RTX 4090, RTX 3090, A100 80GB ≤80GB |
| ★★★★☆ | Zu den Preisen |
| Lyceum Editor's Choice | ab 0,39 $/h | A100 80GB, H100, H200 ≤141GB |
| ★★★★☆ | Zu den Preisen |
| Crusoe | ab 0,40 $/h | H100, H200, B200 ≤192GB |
| ★★★★☆ | Zu den Preisen |
| Scaleway | ab €0,83/h | L4, L40S, H100 ≤80GB |
| ★★★★☆ | Zu den Preisen |
| Together AI | ab 1,49 $/h | H100, H200, A100 80GB ≤141GB |
| ★★★★☆ | Zu den Preisen |
| Nebius Editor's Choice | ab 1,55 $/h | H100, H200, B200 ≤192GB |
| ★★★★★ | Zu den Preisen |
Globaler GPU-Cloud-Spezialist — H100, A100 80GB und L40 ab 0,11 $/h
GPU-Cloud-Marktplatz — RTX 4090 ab 0,21 $/h, H100 ab 1,99 $/h
EU-souveräne KI-Cloud — H100 bis H200 mit voller Datenresidenz
Klima-positive GPU-Cloud — H100, H200, B200 und MI300X auf grüner Energie
Europäische Cloud mit H100 SXM und L40S — Paris und Amsterdam
Inferenz-fokussierte GPU-Cloud — H100/H200 mit optimierten Serving-Stacks
TensorDock bietet L40S ab 0,80 $/h an, oft der niedrigste Spot-Markt-Preis. Hyperstack und Together AI landen typischerweise bei 1,00–1,30 $/h für zuverlässiges On-Demand. Scaleway ist mit 2,00 $/h am teuersten, bietet aber EU-Datenhaltung und Enterprise-Verträge.
Für Inferenz von Modellen bis zu 34B Parametern ist die L40S fast immer günstiger pro Token. Bei 1,00 $/h vs. 2,50 $/h für H100 kannst du mit dem gleichen Budget 2,5× mehr L40S-GPUs betreiben. H100 gewinnt beim rohen Durchsatz pro GPU, aber L40S gewinnt beim Durchsatz pro Dollar — entscheidend für kostensensitive Inferenz-APIs.
SDXL- und Video-Diffusions-Inferenz, Multi-Tenant-LLM-Serving (Modelle bis 34B), Whisper/Speech-to-Text im großen Maßstab, Echtzeit-Rendering-Pipelines und alle Workloads, bei denen du 48 GB VRAM zu minimalen Kosten benötigst. Die L40S eignet sich auch gut für ComfyUI-Multi-Modell-Workflows, bei denen mehrere Modelle gleichzeitig geladen werden.
L40S hat weniger Speicherbandbreite als A100 80GB, kostet aber 40–60 % weniger pro Stunde. Für Inferenz quantisierter Modelle erreicht oder übertrifft L40S den A100-Durchsatz. Für Training ist A100 80GB dank HBM-Bandbreite schneller. Wenn dein Workload inferenz-dominiert ist, ist L40S das bessere Preis-Leistungs-Verhältnis.
Eine einzelne L40S kann bei Batch=4 8–12 SDXL-XL-Bilder pro Sekunde liefern. Für eine 100-Req/Min-API sind 1–2 L40S-GPUs ausreichend. Für Video-Diffusion (z.B. Wan2.1 oder CogVideoX) plane 1 L40S pro Video-Render-Job. Hyperstack und Together AI unterstützen beide Multi-GPU-L40S-Konfigurationen.
Wir schicken dir eine E-Mail, wenn GPU-Preise oder Verfügbarkeit sich bei deinem bevorzugten Anbieter ändern.
Kein Spam. Jederzeit abmeldbar.