Modell · 6× DGX Spark

KI:KUBE 6

Die Pro-Variante: für sehr große Teams, paralleles Multi-Modell oder Frontier-Reasoning ohne Quantisierungs-Kompromiss.

KI:KUBE 6 im Erstgespräch besprechen

DGX Spark

6×

GPU-Memory

768 GB

Chat-User parallel

30–60 Chat-User parallel

Preis ab

~39.900 € (auf Anfrage konfiguriert)

Indikativer Wert: die tatsächliche Nutzer-/Stream-Kapazität hängt sehr von der Modellwahl ab.

Auch als Managed-Service ab 3.290 € / Monat, Investitionswege & TCO-Rechner auf /preise.

Positionierung

Wann KI:KUBE 6 die richtige Wahl ist

Wenn Sie Frontier-Reasoning mit weniger Quantisierungsverlust, parallele Modell-Bestückung oder Reserven für 100+ aktive User-Sessions brauchen.

Typische Käufer: Großkanzleien (50+ Anwälte), regionale Kliniken, Software-Häuser >100 Devs, Forschungseinrichtungen mit Compliance-Bezug, größere kommunale Verwaltungen.

Hardware

Spezifikation

DGX Spark Knoten: 6×
GPU-Memory (Unified): 768 GB
Internes Netz: MikroTik 400GbE-Switch (QSFP56-DD), je Spark 200GbE
Formfaktor: 19-Zoll-Rack, 18 HE
Leistungsaufnahme: ~0,9 kW unter Inferenz-Volllast (skaliert aus 4-Node-Lauf)

Highlights

Was diese Stufe besonders macht

Reserven für Peaks

Auch bei Tageshochlast (Vormittag-Coding + Mittag-Recherche + Nachmittag-Schriftsatz) keine spürbare Latenz-Verschlechterung.

Höhere Modell-Treue

Manche Frontier-Modelle laufen auf 6 Sparks in FP8 statt NVFP4, messbar bessere Output-Qualität für anspruchsvolle Aufgaben.

Optionale Konfiguration

Topologie und Kühlung werden auf Ihren Stellplatz angepasst; Lieferzeit dadurch leicht länger (~6–8 Wochen).

Eignung

Wofür gut, wofür nicht

Nicht sinnvoll für

Kleine Teams (<20 MA): wirtschaftlich überdimensioniert
Wenn die Strom- oder Klimavoraussetzungen am Stellplatz fehlen

Was läuft darauf?

Beispielhafte Sprachmodelle

Auswahl bekannter Open-Weight-Modelle, die auf dieser Ausbaustufe sinnvoll laufen, die vollständige, validierte Konfiguration ist Bestandteil der Lieferung und wird nicht öffentlich publiziert.

Sprachmodell	Use Case	Performance (Indikation)
Qwen3.5-397B-A17B (FP8 statt NVFP4)	Reasoning, höhere Präzision	Performance-Profil auf Anfrage (höhere Präzision vs. NVFP4-Variante auf KI:KUBE 4)
GLM-5-AWQ (4–5 Sparks)	Maximum-Qualität Open-Weight	experimentell, noch nicht im Validated-Set
Qwen3.6-35B-A3B + Qwen3-235B (parallel)	Coding + Reasoning gleichzeitig	Multi-Modell-Betrieb ohne Reload zwischen Use-Cases

Performance-Werte indikativ, gemessen auf Referenz-Hardware mit SGLang. Tatsächliche Werte hängen von Topologie, Quantisierung, Kontext-Länge und Last ab. Wir besprechen die für Ihren Use-Case relevanten Modelle im Erstgespräch: keine Tabellen-Akrobatik nötig.

Upgrade-Pfad

Erweiterung auf KI:KUBE 8 möglich (~10.900 € + Service); alternativ Skalierung über zweite KI:KUBE 6 als Hot-Standby oder zusätzliche Site. Cluster-Federation auf Anfrage.

Volle Preisübersicht →

Alternativen

Die anderen Ausbaustufen

2× DGX Spark · 256 GB

KI:KUBE 2

Einstieg in lokale Frontier-KI, für kleinere Teams ohne Kompromiss bei der Datenhoheit.

KI:KUBE 2 ansehen →

4× DGX Spark · 512 GB

KI:KUBE 4

Die Standard-Ausbaustufe: empfohlen für Kanzleien, StB-Büros und mittelständische Software-Häuser.

KI:KUBE 4 ansehen →

8× DGX Spark · 1024 GB

KI:KUBE 8

Das Top-Modell: maximale Unified-Memory-Reserven für die größten Frontier-Modelle in hoher Präzision und parallele Multi-Modell-Bestückung ohne Reload.

KI:KUBE 8 ansehen →

KI:KUBE 6 an einem Ihrer eigenen Dokumente sehen.

Demo anfragen