Modell · 8× DGX Spark
KI:KUBE 8
Das Top-Modell: maximale Unified-Memory-Reserven für die größten Frontier-Modelle in hoher Präzision und parallele Multi-Modell-Bestückung ohne Reload.
Indikativer Wert: die tatsächliche Nutzer-/Stream-Kapazität hängt sehr von der Modellwahl ab.
Auch als Managed-Service ab 4.090 € / Monat, Investitionswege & TCO-Rechner auf /preise.
Positionierung
Wann KI:KUBE 8 die richtige Wahl ist
Wenn die KI:KUBE 6 an ihre Memory- oder Durchsatz-Grenze stößt: 1 TB Unified Memory für die größeren Open-Weight-Modelle in FP8, mehrere große Modelle dauerhaft parallel oder sehr große, gemischte Nutzerlast ohne Latenz-Einbruch.
Typische Käufer: Sehr große Kanzleien und WP-Gesellschaften, Klinikverbünde, Software-Häuser >150 Devs, Forschungs- und Verwaltungseinrichtungen mit hoher Parallellast und Compliance-Bezug.
Hardware
Spezifikation
- DGX Spark Knoten
- 8×
- GPU-Memory (Unified)
- 1024 GB
- Internes Netz
- MikroTik 400GbE-Switch (QSFP56-DD), je Spark 200GbE
- Formfaktor
- 19-Zoll-Rack, 18 HE
- Leistungsaufnahme
- ~1,2 kW unter Inferenz-Volllast (skaliert aus 4-Node-Lauf)
Highlights
Was diese Stufe besonders macht
Maximale Reserven
Auch bei dauerhafter Hochlast über alle Abteilungen hinweg bleiben Latenz und Durchsatz stabil, Kapazität, die nicht in jedem Quartal neu verhandelt wird.
Höhere Modell-Treue
1 TB Unified Memory lässt die größeren Frontier-Modelle in FP8 statt NVFP4 laufen: die beste Output-Qualität, die On-Prem heute realistisch ist.
Optionale Konfiguration
Topologie und Kühlung werden auf Ihren Stellplatz angepasst; Lieferzeit dadurch leicht länger (~6–8 Wochen).
Eignung
Wofür gut, wofür nicht
Empfohlen für
- Größere Open-Weight-Modelle (>500B Parameter) in FP8 statt NVFP4 mit Reserve
- Drei und mehr große Modelle dauerhaft parallel (Allround + Reasoning + Coding) ohne Reload
- Sehr hochfrequente Coding-Leistung über große Monorepos
- 80+ parallele User-Sessions mit gemischtem Workload und Spitzenreserven
Nicht sinnvoll für
- Teams unter ~50 MA: wirtschaftlich klar überdimensioniert, KI:KUBE 4/6 ist passender
- Wenn die Strom- oder Klimavoraussetzungen am Stellplatz fehlen
- Trainings-Workloads (KI:KUBE bleibt eine Inferenz-Appliance)
Was läuft darauf?
Beispielhafte Sprachmodelle
Auswahl bekannter Open-Weight-Modelle, die auf dieser Ausbaustufe sinnvoll laufen, die vollständige, validierte Konfiguration ist Bestandteil der Lieferung und wird nicht öffentlich publiziert.
| Sprachmodell | Use Case | Performance (Indikation) |
|---|---|---|
| Nemotron-3-Ultra-550B-A55B (FP8 statt NVFP4) | Frontier-Reasoning, höhere Präzision | Performance-Profil auf Anfrage (höhere Präzision vs. NVFP4-Variante auf KI:KUBE 4) |
| Qwen3.5-397B-A17B (FP8) + Coding-Modell (parallel) | Reasoning + Coding gleichzeitig, hot-loaded | Multi-Modell-Betrieb ohne Reload zwischen Use-Cases |
| GLM-5-AWQ | Maximum-Qualität Open-Weight | experimentell, noch nicht im Validated-Set |
Performance-Werte indikativ, gemessen auf Referenz-Hardware mit SGLang. Tatsächliche Werte hängen von Topologie, Quantisierung, Kontext-Länge und Last ab. Wir besprechen die für Ihren Use-Case relevanten Modelle im Erstgespräch: keine Tabellen-Akrobatik nötig.
Upgrade-Pfad
Skalierung über zweite KI:KUBE 8 als Hot-Standby oder zusätzliche Site möglich. Cluster-Federation auf Anfrage.
Alternativen
Die anderen Ausbaustufen
KI:KUBE 2
Einstieg in lokale Frontier-KI, für kleinere Teams ohne Kompromiss bei der Datenhoheit.
KI:KUBE 2 ansehen →KI:KUBE 4
Die Standard-Ausbaustufe: empfohlen für Kanzleien, StB-Büros und mittelständische Software-Häuser.
KI:KUBE 4 ansehen →KI:KUBE 6
Die Pro-Variante: für sehr große Teams, paralleles Multi-Modell oder Frontier-Reasoning ohne Quantisierungs-Kompromiss.
KI:KUBE 6 ansehen →KI:KUBE 8 an einem Ihrer eigenen Dokumente sehen.
Demo anfragen