KI:KUBE

Modell · 8× DGX Spark

KI:KUBE 8

Das Top-Modell: maximale Unified-Memory-Reserven für die größten Frontier-Modelle in hoher Präzision und parallele Multi-Modell-Bestückung ohne Reload.

DGX Spark
GPU-Memory
1024 GB
Chat-User parallel
60–90 Chat-User parallel
Preis ab
~49.900 € (auf Anfrage konfiguriert)

Indikativer Wert: die tatsächliche Nutzer-/Stream-Kapazität hängt sehr von der Modellwahl ab.

Auch als Managed-Service ab 4.090 € / Monat, Investitionswege & TCO-Rechner auf /preise.

Positionierung

Wann KI:KUBE 8 die richtige Wahl ist

Wenn die KI:KUBE 6 an ihre Memory- oder Durchsatz-Grenze stößt: 1 TB Unified Memory für die größeren Open-Weight-Modelle in FP8, mehrere große Modelle dauerhaft parallel oder sehr große, gemischte Nutzerlast ohne Latenz-Einbruch.

Typische Käufer: Sehr große Kanzleien und WP-Gesellschaften, Klinikverbünde, Software-Häuser >150 Devs, Forschungs- und Verwaltungseinrichtungen mit hoher Parallellast und Compliance-Bezug.

Hardware

Spezifikation

DGX Spark Knoten
GPU-Memory (Unified)
1024 GB
Internes Netz
MikroTik 400GbE-Switch (QSFP56-DD), je Spark 200GbE
Formfaktor
19-Zoll-Rack, 18 HE
Leistungsaufnahme
~1,2 kW unter Inferenz-Volllast (skaliert aus 4-Node-Lauf)

Highlights

Was diese Stufe besonders macht

Maximale Reserven

Auch bei dauerhafter Hochlast über alle Abteilungen hinweg bleiben Latenz und Durchsatz stabil, Kapazität, die nicht in jedem Quartal neu verhandelt wird.

Höhere Modell-Treue

1 TB Unified Memory lässt die größeren Frontier-Modelle in FP8 statt NVFP4 laufen: die beste Output-Qualität, die On-Prem heute realistisch ist.

Optionale Konfiguration

Topologie und Kühlung werden auf Ihren Stellplatz angepasst; Lieferzeit dadurch leicht länger (~6–8 Wochen).

Eignung

Wofür gut, wofür nicht

Empfohlen für

  • Größere Open-Weight-Modelle (>500B Parameter) in FP8 statt NVFP4 mit Reserve
  • Drei und mehr große Modelle dauerhaft parallel (Allround + Reasoning + Coding) ohne Reload
  • Sehr hochfrequente Coding-Leistung über große Monorepos
  • 80+ parallele User-Sessions mit gemischtem Workload und Spitzenreserven

Nicht sinnvoll für

  • Teams unter ~50 MA: wirtschaftlich klar überdimensioniert, KI:KUBE 4/6 ist passender
  • Wenn die Strom- oder Klimavoraussetzungen am Stellplatz fehlen
  • Trainings-Workloads (KI:KUBE bleibt eine Inferenz-Appliance)

Was läuft darauf?

Beispielhafte Sprachmodelle

Auswahl bekannter Open-Weight-Modelle, die auf dieser Ausbaustufe sinnvoll laufen, die vollständige, validierte Konfiguration ist Bestandteil der Lieferung und wird nicht öffentlich publiziert.

Sprachmodell Use Case Performance (Indikation)
Nemotron-3-Ultra-550B-A55B (FP8 statt NVFP4) Frontier-Reasoning, höhere Präzision Performance-Profil auf Anfrage (höhere Präzision vs. NVFP4-Variante auf KI:KUBE 4)
Qwen3.5-397B-A17B (FP8) + Coding-Modell (parallel) Reasoning + Coding gleichzeitig, hot-loaded Multi-Modell-Betrieb ohne Reload zwischen Use-Cases
GLM-5-AWQ Maximum-Qualität Open-Weight experimentell, noch nicht im Validated-Set

Performance-Werte indikativ, gemessen auf Referenz-Hardware mit SGLang. Tatsächliche Werte hängen von Topologie, Quantisierung, Kontext-Länge und Last ab. Wir besprechen die für Ihren Use-Case relevanten Modelle im Erstgespräch: keine Tabellen-Akrobatik nötig.

Upgrade-Pfad

Skalierung über zweite KI:KUBE 8 als Hot-Standby oder zusätzliche Site möglich. Cluster-Federation auf Anfrage.

Volle Preisübersicht →

KI:KUBE 8 an einem Ihrer eigenen Dokumente sehen.

Demo anfragen