KI:KUBE

Modell · 6× DGX Spark

KI:KUBE 6

Die Pro-Variante: für sehr große Teams, paralleles Multi-Modell oder Frontier-Reasoning ohne Quantisierungs-Kompromiss.

DGX Spark
GPU-Memory
768 GB
Chat-User parallel
30–60 Chat-User parallel
Preis ab
~39.900 € (auf Anfrage konfiguriert)

Indikativer Wert: die tatsächliche Nutzer-/Stream-Kapazität hängt sehr von der Modellwahl ab.

Auch als Managed-Service ab 3.290 € / Monat, Investitionswege & TCO-Rechner auf /preise.

Positionierung

Wann KI:KUBE 6 die richtige Wahl ist

Wenn Sie Frontier-Reasoning mit weniger Quantisierungsverlust, parallele Modell-Bestückung oder Reserven für 100+ aktive User-Sessions brauchen.

Typische Käufer: Großkanzleien (50+ Anwälte), regionale Kliniken, Software-Häuser >100 Devs, Forschungseinrichtungen mit Compliance-Bezug, größere kommunale Verwaltungen.

Hardware

Spezifikation

DGX Spark Knoten
GPU-Memory (Unified)
768 GB
Internes Netz
MikroTik 400GbE-Switch (QSFP56-DD), je Spark 200GbE
Formfaktor
19-Zoll-Rack, 18 HE
Leistungsaufnahme
~0,9 kW unter Inferenz-Volllast (skaliert aus 4-Node-Lauf)

Highlights

Was diese Stufe besonders macht

Reserven für Peaks

Auch bei Tageshochlast (Vormittag-Coding + Mittag-Recherche + Nachmittag-Schriftsatz) keine spürbare Latenz-Verschlechterung.

Höhere Modell-Treue

Manche Frontier-Modelle laufen auf 6 Sparks in FP8 statt NVFP4, messbar bessere Output-Qualität für anspruchsvolle Aufgaben.

Optionale Konfiguration

Topologie und Kühlung werden auf Ihren Stellplatz angepasst; Lieferzeit dadurch leicht länger (~6–8 Wochen).

Eignung

Wofür gut, wofür nicht

Empfohlen für

  • Größere Open-Weight-Modelle (>500B Parameter) in höherer Präzision
  • Permanenter Reasoning-Modell-Bestand zusätzlich zu Allround und Coding
  • Hochfrequente Coding-Lastung mit großen Repositories
  • 100+ parallele User-Sessions mit gemischtem Workload

Nicht sinnvoll für

  • Kleine Teams (<20 MA): wirtschaftlich überdimensioniert
  • Wenn die Strom- oder Klimavoraussetzungen am Stellplatz fehlen

Was läuft darauf?

Beispielhafte Sprachmodelle

Auswahl bekannter Open-Weight-Modelle, die auf dieser Ausbaustufe sinnvoll laufen, die vollständige, validierte Konfiguration ist Bestandteil der Lieferung und wird nicht öffentlich publiziert.

Sprachmodell Use Case Performance (Indikation)
Qwen3.5-397B-A17B (FP8 statt NVFP4) Reasoning, höhere Präzision Performance-Profil auf Anfrage (höhere Präzision vs. NVFP4-Variante auf KI:KUBE 4)
GLM-5-AWQ (4–5 Sparks) Maximum-Qualität Open-Weight experimentell, noch nicht im Validated-Set
Qwen3.6-35B-A3B + Qwen3-235B (parallel) Coding + Reasoning gleichzeitig Multi-Modell-Betrieb ohne Reload zwischen Use-Cases

Performance-Werte indikativ, gemessen auf Referenz-Hardware mit SGLang. Tatsächliche Werte hängen von Topologie, Quantisierung, Kontext-Länge und Last ab. Wir besprechen die für Ihren Use-Case relevanten Modelle im Erstgespräch: keine Tabellen-Akrobatik nötig.

Upgrade-Pfad

Erweiterung auf KI:KUBE 8 möglich (~10.900 € + Service); alternativ Skalierung über zweite KI:KUBE 6 als Hot-Standby oder zusätzliche Site. Cluster-Federation auf Anfrage.

Volle Preisübersicht →

KI:KUBE 6 an einem Ihrer eigenen Dokumente sehen.

Demo anfragen