Question 1

Hat Google Cloud H100?

Accepted Answer

Ja, Google Cloud bietet H100-80-GB-Instanzen über die A3-Instanzfamilie (Single-Node) und A3 Mega (8×H100-Nodes) an. Die H100-Verfügbarkeit auf GCP ist für Teams mit etablierten GCP-Konten generell gut, obwohl große A3-Mega-Cluster möglicherweise Kontingent-Erhöhungen über den GCP-Support erfordern. GCP ist neben AWS p5 einer der wenigen Hyperscaler mit On-Demand-H100-Zugang im großen Maßstab.

Question 2

Soll ich auf Google Cloud TPU oder GPU verwenden?

Accepted Answer

Verwende TPUs, wenn du TensorFlow-Modelle trainierst oder Googles JAX-Framework verwendest – TPU v4 und v5 sind für Tensor-Operationen optimiert und können für die richtigen Workloads deutlich schneller sein als GPUs. Verwende GPUs, wenn du PyTorch nutzt, Standard-CUDA-Ökosystem-Tools benötigst oder Inferenz-Workloads durchführst. Die meiste Open-Source-ML-Community hat sich auf PyTorch und CUDA konvergiert, was GPUs in der Praxis fast immer zur praktischen Wahl macht.

Question 3

Wie viel kann ich mit Spot-Instanzen auf GCP sparen?

Accepted Answer

GCP Spot VMs (früher Preemptible VMs) bieten Ersparnisse von 60–91 % gegenüber On-Demand-Preisen je nach GPU-Typ und Region. T4 Spot ist ~69 % günstiger (0,11 $/h vs. 0,35 $/h). A100-40-GB-Spot ist ~70 % günstiger (0,88 $/h vs. 2,93 $/h). Der Haken: Spot VMs werden von Google bei Kapazitätsbedarf beendet, in der Regel mit 30 Sekunden Vorwarnung. Sie sind ideal für checkpointbasiertes Training, Batch-Verarbeitung und Workloads, die Unterbrechungen überstehen können.

Question 4

Wie vergleicht sich GCP mit AWS für ML-Workloads?

Accepted Answer

GCP und AWS sind für die meisten ML-Workloads vergleichbar, haben aber unterschiedliche Ökosystem-Stärken. GCP hat besseren TPU-Zugang, engere Vertex-AI-Integration für MLOps-Pipelines und BigQuery für ML auf strukturierten Daten. AWS hat das reifere SageMaker, Inferentia für kosteneffiziente Inferenz und breitere Compliance-Zertifikate. Teams, die bereits GCP-Dienste nutzen, sollten bei GCP bleiben; Teams auf AWS sollten bei AWS bleiben.

Question 5

Was ist Vertex AI?

Accepted Answer

Vertex AI ist die verwaltete ML-Plattform von Google Cloud, die den gesamten ML-Workflow abdeckt – Datensatz-Management, Modell-Training, Modell-Registry und Deployment. Es integriert sich eng mit GCP-GPU- und TPU-Instanzen, GCS-Storage und BigQuery. Vertex AI konkurriert mit AWS SageMaker und Azure ML. Für Teams, die Produktions-ML-Pipelines auf GCP aufbauen, ist Vertex AI der empfohlene Ansatz – es übernimmt Auto-Scaling, Modell-Versionierung und Monitoring von Haus aus.

GPU	VRAM	On-Demand	Spot	Ideal für
T4	16 GB	0,35 $/h	0,11 $/h	Inferenz, leichtes Training
A100 40GB (A2)	40 GB	2,93 $/h	0,88 $/h	ML-Training
A100 80GB (A2 Ultra)	80 GB	3,67 $/h	1,10 $/h	Große Modelle
H100 80GB (A3)	80 GB	5,43 $/h	1,63 $/h	Frontier-Modelle
H100 ×8 (A3 Mega)	640 GB	43,44 $/h	30 $/h committed	Vortraining

Google Cloud GPU Test 2026

Was ist Google Cloud GPU?

Spot VMs – Der clevere Weg, GCP für ML zu nutzen

Google Cloud GPU Preise (April 2026)

Google Cloud GPU Vor- & Nachteile

Für wen ist Google Cloud GPU geeignet?

Google Cloud GPU Alternativen

Fazit

Google Cloud GPU FAQ