Modell · 4× DGX Spark

KI:KUBE 4

Die Standard-Ausbaustufe: empfohlen für Kanzleien, StB-Büros und mittelständische Software-Häuser.

KI:KUBE 4 im Erstgespräch besprechen

DGX Spark

4×

GPU-Memory

512 GB

Chat-User parallel

10–30 Chat-User parallel

Preis ab

29.900 € (System-Kauf)

Indikativer Wert: die tatsächliche Nutzer-/Stream-Kapazität hängt sehr von der Modellwahl ab.

Auch als Managed-Service ab 2.490 € / Monat, Investitionswege & TCO-Rechner auf /preise.

Positionierung

Wann KI:KUBE 4 die richtige Wahl ist

Wenn Sie nicht in jedem Quartal über Kapazität nachdenken wollen: KI:KUBE 4 deckt den Großteil der produktiven Use-Cases ab, von Mandantenakte bis Coding-Copilot für die ganze Entwicklung.

Typische Käufer: Kanzleien 15–50 Anwälte, mittlere StB/WP-Kanzleien, Software-Häuser 30–80 Devs, Klinik-IT, mittelständische Verwaltungen.

Hardware

Spezifikation

DGX Spark Knoten: 4×
GPU-Memory (Unified): 512 GB
Internes Netz: MikroTik 400GbE-Switch (QSFP56-DD), je Spark 200GbE
Formfaktor: 19-Zoll-Rack, 18 HE
Leistungsaufnahme: ~0,6 kW unter Inferenz-Volllast (gemessen)

Highlights

Was diese Stufe besonders macht

Wirtschaftlichkeit

Sehr gute TCO-Lage: Break-Even (System-Kauf) gegenüber 30× ChatGPT Pro nach ~10,8 Monaten.

Multi-Modell-Betrieb

Großes Modell + spezialisiertes Coding-Modell parallel, kein Hot-Reload bei jedem Anwendungswechsel.

Pilotfähig

Das Pilot-2026-Programm setzt auf diese Ausbaustufe; größtes Erfahrungs-Set, schnellste Inbetriebnahme.

Eignung

Wofür gut, wofür nicht

Nicht sinnvoll für

Massive Modell-Größen jenseits 500B Parameter ohne aggressive Quantisierung
Trainings-Workloads (KI:KUBE ist eine Inferenz-Appliance, kein Trainings-Cluster)

Was läuft darauf?

Beispielhafte Sprachmodelle

Auswahl bekannter Open-Weight-Modelle, die auf dieser Ausbaustufe sinnvoll laufen, die vollständige, validierte Konfiguration ist Bestandteil der Lieferung und wird nicht öffentlich publiziert.

Sprachmodell	Use Case	Performance (Indikation)
Qwen3.6-35B-A3B-NVFP4	Throughput-Champion (Allround + Coding)	~80 t/s n=1 · ~285 t/s n=4 · 438 t/s n=8 (gemessen 2026-05-22, RedHatAI-Quant)
Qwen3.6-35B-A3B-FP8	Allround + Coding (offene FP8-Variante)	77 t/s n=1 · 280 t/s n=4 · 426 t/s n=8 (gemessen 2026-05-21)
Qwen3.6-27B-FP8	Dense / höchste Single-Antwort-Qualität	44 t/s n=1 · 145 t/s n=4 · 252 t/s n=8 (gemessen 2026-05-10)
Gemma 4 26B-A4B-it-BF16	Multimodal (Vision + Audio)	50 t/s n=1 · 150 t/s n=4 · 231 t/s n=8 (gemessen 2026-05-15)
Qwen3.5-397B-A17B-NVFP4	Frontier-Reasoning	40 t/s n=1 · 84 t/s n=4 · 111 t/s n=8 (gemessen 2026-04-16)
Nemotron-3-Super-120B-A12B-NVFP4	Frontier-Reasoning (Mamba2-Hybrid), 512K Kontext	29 t/s n=1 · 89 t/s n=4 · 135 t/s n=8 (gemessen 2026-06-04) · ~285 t/s bei n=32 (Live-Betrieb, steigt mit höherer Parallelität weiter (bis zur Sättigung))
Nemotron-3-Ultra-550B-A55B-NVFP4	Größtes validiertes Modell, Frontier-Reasoning, 512K Kontext	10 t/s n=1 · 29 t/s n=4 · 43 t/s n=8 (gemessen 2026-06-06)
Qwen3-235B-A22B-FP8	parallel zum Hauptmodell, hot-loaded	Multi-Modell-Betrieb ohne Reload zwischen Use-Cases

Performance-Werte indikativ, gemessen auf Referenz-Hardware mit SGLang. Tatsächliche Werte hängen von Topologie, Quantisierung, Kontext-Länge und Last ab. Wir besprechen die für Ihren Use-Case relevanten Modelle im Erstgespräch: keine Tabellen-Akrobatik nötig.

Upgrade-Pfad

Erweiterung auf KI:KUBE 6 möglich (~10.900 € + Service); für sehr großes Wachstum eher zweite Box parallel als Hot-Standby/Multi-Site.

Volle Preisübersicht →

Alternativen

Die anderen Ausbaustufen

2× DGX Spark · 256 GB

KI:KUBE 2

Einstieg in lokale Frontier-KI, für kleinere Teams ohne Kompromiss bei der Datenhoheit.

KI:KUBE 2 ansehen →

6× DGX Spark · 768 GB

KI:KUBE 6

Die Pro-Variante: für sehr große Teams, paralleles Multi-Modell oder Frontier-Reasoning ohne Quantisierungs-Kompromiss.

KI:KUBE 6 ansehen →

8× DGX Spark · 1024 GB

KI:KUBE 8

Das Top-Modell: maximale Unified-Memory-Reserven für die größten Frontier-Modelle in hoher Präzision und parallele Multi-Modell-Bestückung ohne Reload.

KI:KUBE 8 ansehen →

KI:KUBE 4 an einem Ihrer eigenen Dokumente sehen.

Demo anfragen