Modell · 6× DGX Spark
KI:KUBE 6
Die Pro-Variante: für sehr große Teams, paralleles Multi-Modell oder Frontier-Reasoning ohne Quantisierungs-Kompromiss.
Indikativer Wert: die tatsächliche Nutzer-/Stream-Kapazität hängt sehr von der Modellwahl ab.
Auch als Managed-Service ab 3.290 € / Monat, Investitionswege & TCO-Rechner auf /preise.
Positionierung
Wann KI:KUBE 6 die richtige Wahl ist
Wenn Sie Frontier-Reasoning mit weniger Quantisierungsverlust, parallele Modell-Bestückung oder Reserven für 100+ aktive User-Sessions brauchen.
Typische Käufer: Großkanzleien (50+ Anwälte), regionale Kliniken, Software-Häuser >100 Devs, Forschungseinrichtungen mit Compliance-Bezug, größere kommunale Verwaltungen.
Hardware
Spezifikation
- DGX Spark Knoten
- 6×
- GPU-Memory (Unified)
- 768 GB
- Internes Netz
- MikroTik 400GbE-Switch (QSFP56-DD), je Spark 200GbE
- Formfaktor
- 19-Zoll-Rack, 18 HE
- Leistungsaufnahme
- ~0,9 kW unter Inferenz-Volllast (skaliert aus 4-Node-Lauf)
Highlights
Was diese Stufe besonders macht
Reserven für Peaks
Auch bei Tageshochlast (Vormittag-Coding + Mittag-Recherche + Nachmittag-Schriftsatz) keine spürbare Latenz-Verschlechterung.
Höhere Modell-Treue
Manche Frontier-Modelle laufen auf 6 Sparks in FP8 statt NVFP4, messbar bessere Output-Qualität für anspruchsvolle Aufgaben.
Optionale Konfiguration
Topologie und Kühlung werden auf Ihren Stellplatz angepasst; Lieferzeit dadurch leicht länger (~6–8 Wochen).
Eignung
Wofür gut, wofür nicht
Empfohlen für
- Größere Open-Weight-Modelle (>500B Parameter) in höherer Präzision
- Permanenter Reasoning-Modell-Bestand zusätzlich zu Allround und Coding
- Hochfrequente Coding-Lastung mit großen Repositories
- 100+ parallele User-Sessions mit gemischtem Workload
Nicht sinnvoll für
- Kleine Teams (<20 MA): wirtschaftlich überdimensioniert
- Wenn die Strom- oder Klimavoraussetzungen am Stellplatz fehlen
Was läuft darauf?
Beispielhafte Sprachmodelle
Auswahl bekannter Open-Weight-Modelle, die auf dieser Ausbaustufe sinnvoll laufen, die vollständige, validierte Konfiguration ist Bestandteil der Lieferung und wird nicht öffentlich publiziert.
| Sprachmodell | Use Case | Performance (Indikation) |
|---|---|---|
| Qwen3.5-397B-A17B (FP8 statt NVFP4) | Reasoning, höhere Präzision | Performance-Profil auf Anfrage (höhere Präzision vs. NVFP4-Variante auf KI:KUBE 4) |
| GLM-5-AWQ (4–5 Sparks) | Maximum-Qualität Open-Weight | experimentell, noch nicht im Validated-Set |
| Qwen3.6-35B-A3B + Qwen3-235B (parallel) | Coding + Reasoning gleichzeitig | Multi-Modell-Betrieb ohne Reload zwischen Use-Cases |
Performance-Werte indikativ, gemessen auf Referenz-Hardware mit SGLang. Tatsächliche Werte hängen von Topologie, Quantisierung, Kontext-Länge und Last ab. Wir besprechen die für Ihren Use-Case relevanten Modelle im Erstgespräch: keine Tabellen-Akrobatik nötig.
Upgrade-Pfad
Erweiterung auf KI:KUBE 8 möglich (~10.900 € + Service); alternativ Skalierung über zweite KI:KUBE 6 als Hot-Standby oder zusätzliche Site. Cluster-Federation auf Anfrage.
Alternativen
Die anderen Ausbaustufen
KI:KUBE 2
Einstieg in lokale Frontier-KI, für kleinere Teams ohne Kompromiss bei der Datenhoheit.
KI:KUBE 2 ansehen →KI:KUBE 4
Die Standard-Ausbaustufe: empfohlen für Kanzleien, StB-Büros und mittelständische Software-Häuser.
KI:KUBE 4 ansehen →KI:KUBE 8
Das Top-Modell: maximale Unified-Memory-Reserven für die größten Frontier-Modelle in hoher Präzision und parallele Multi-Modell-Bestückung ohne Reload.
KI:KUBE 8 ansehen →KI:KUBE 6 an einem Ihrer eigenen Dokumente sehen.
Demo anfragen