Modell · 8× DGX Spark

KI:KUBE 8

Das Top-Modell: maximale Unified-Memory-Reserven für die größten Frontier-Modelle in hoher Präzision und parallele Multi-Modell-Bestückung ohne Reload.

KI:KUBE 8 im Erstgespräch besprechen

DGX Spark

8×

GPU-Memory

1024 GB

Chat-User parallel

60–90 Chat-User parallel

Preis ab

~49.900 € (auf Anfrage konfiguriert)

Indikativer Wert: die tatsächliche Nutzer-/Stream-Kapazität hängt sehr von der Modellwahl ab.

Auch als Managed-Service ab 4.090 € / Monat, Investitionswege & TCO-Rechner auf /preise.

Positionierung

Wann KI:KUBE 8 die richtige Wahl ist

Wenn die KI:KUBE 6 an ihre Memory- oder Durchsatz-Grenze stößt: 1 TB Unified Memory für die größeren Open-Weight-Modelle in FP8, mehrere große Modelle dauerhaft parallel oder sehr große, gemischte Nutzerlast ohne Latenz-Einbruch.

Typische Käufer: Sehr große Kanzleien und WP-Gesellschaften, Klinikverbünde, Software-Häuser >150 Devs, Forschungs- und Verwaltungseinrichtungen mit hoher Parallellast und Compliance-Bezug.

Hardware

Spezifikation

DGX Spark Knoten: 8×
GPU-Memory (Unified): 1024 GB
Internes Netz: MikroTik 400GbE-Switch (QSFP56-DD), je Spark 200GbE
Formfaktor: 19-Zoll-Rack, 18 HE
Leistungsaufnahme: ~1,2 kW unter Inferenz-Volllast (skaliert aus 4-Node-Lauf)

Highlights

Was diese Stufe besonders macht

Maximale Reserven

Auch bei dauerhafter Hochlast über alle Abteilungen hinweg bleiben Latenz und Durchsatz stabil, Kapazität, die nicht in jedem Quartal neu verhandelt wird.

Höhere Modell-Treue

1 TB Unified Memory lässt die größeren Frontier-Modelle in FP8 statt NVFP4 laufen: die beste Output-Qualität, die On-Prem heute realistisch ist.

Optionale Konfiguration

Topologie und Kühlung werden auf Ihren Stellplatz angepasst; Lieferzeit dadurch leicht länger (~6–8 Wochen).

Eignung

Wofür gut, wofür nicht

Nicht sinnvoll für

Teams unter ~50 MA: wirtschaftlich klar überdimensioniert, KI:KUBE 4/6 ist passender
Wenn die Strom- oder Klimavoraussetzungen am Stellplatz fehlen
Trainings-Workloads (KI:KUBE bleibt eine Inferenz-Appliance)

Was läuft darauf?

Beispielhafte Sprachmodelle

Auswahl bekannter Open-Weight-Modelle, die auf dieser Ausbaustufe sinnvoll laufen, die vollständige, validierte Konfiguration ist Bestandteil der Lieferung und wird nicht öffentlich publiziert.

Sprachmodell	Use Case	Performance (Indikation)
Nemotron-3-Ultra-550B-A55B (FP8 statt NVFP4)	Frontier-Reasoning, höhere Präzision	Performance-Profil auf Anfrage (höhere Präzision vs. NVFP4-Variante auf KI:KUBE 4)
Qwen3.5-397B-A17B (FP8) + Coding-Modell (parallel)	Reasoning + Coding gleichzeitig, hot-loaded	Multi-Modell-Betrieb ohne Reload zwischen Use-Cases
GLM-5-AWQ	Maximum-Qualität Open-Weight	experimentell, noch nicht im Validated-Set

Performance-Werte indikativ, gemessen auf Referenz-Hardware mit SGLang. Tatsächliche Werte hängen von Topologie, Quantisierung, Kontext-Länge und Last ab. Wir besprechen die für Ihren Use-Case relevanten Modelle im Erstgespräch: keine Tabellen-Akrobatik nötig.

Upgrade-Pfad

Skalierung über zweite KI:KUBE 8 als Hot-Standby oder zusätzliche Site möglich. Cluster-Federation auf Anfrage.

Volle Preisübersicht →

Alternativen