KI:KUBE

Modell · 4× DGX Spark

KI:KUBE 4

Die Standard-Ausbaustufe: empfohlen für Kanzleien, StB-Büros und mittelständische Software-Häuser.

DGX Spark
GPU-Memory
512 GB
Chat-User parallel
10–30 Chat-User parallel
Preis ab
29.900 € (System-Kauf)

Indikativer Wert: die tatsächliche Nutzer-/Stream-Kapazität hängt sehr von der Modellwahl ab.

Auch als Managed-Service ab 2.490 € / Monat, Investitionswege & TCO-Rechner auf /preise.

Positionierung

Wann KI:KUBE 4 die richtige Wahl ist

Wenn Sie nicht in jedem Quartal über Kapazität nachdenken wollen: KI:KUBE 4 deckt den Großteil der produktiven Use-Cases ab, von Mandantenakte bis Coding-Copilot für die ganze Entwicklung.

Typische Käufer: Kanzleien 15–50 Anwälte, mittlere StB/WP-Kanzleien, Software-Häuser 30–80 Devs, Klinik-IT, mittelständische Verwaltungen.

Hardware

Spezifikation

DGX Spark Knoten
GPU-Memory (Unified)
512 GB
Internes Netz
MikroTik 400GbE-Switch (QSFP56-DD), je Spark 200GbE
Formfaktor
19-Zoll-Rack, 18 HE
Leistungsaufnahme
~0,6 kW unter Inferenz-Volllast (gemessen)

Highlights

Was diese Stufe besonders macht

Wirtschaftlichkeit

Sehr gute TCO-Lage: Break-Even (System-Kauf) gegenüber 30× ChatGPT Pro nach ~10,8 Monaten.

Multi-Modell-Betrieb

Großes Modell + spezialisiertes Coding-Modell parallel, kein Hot-Reload bei jedem Anwendungswechsel.

Pilotfähig

Das Pilot-2026-Programm setzt auf diese Ausbaustufe; größtes Erfahrungs-Set, schnellste Inbetriebnahme.

Eignung

Wofür gut, wofür nicht

Empfohlen für

  • Frontier-Open-Weight-Modelle bis ~550B Parameter (NVFP4-quantisiert)
  • Throughput-Champion Qwen3.6-35B-A3B-NVFP4 (438 t/s n=8, gemessen)
  • Coding-Copilot für ganze Entwicklungs-Teams
  • Multi-Tenant-RAG mit getrennten Dokumenten-Namespaces
  • Pflichtschulungen + Routine-Tagesgeschäft gleichzeitig

Nicht sinnvoll für

  • Massive Modell-Größen jenseits 500B Parameter ohne aggressive Quantisierung
  • Trainings-Workloads (KI:KUBE ist eine Inferenz-Appliance, kein Trainings-Cluster)

Was läuft darauf?

Beispielhafte Sprachmodelle

Auswahl bekannter Open-Weight-Modelle, die auf dieser Ausbaustufe sinnvoll laufen, die vollständige, validierte Konfiguration ist Bestandteil der Lieferung und wird nicht öffentlich publiziert.

Sprachmodell Use Case Performance (Indikation)
Qwen3.6-35B-A3B-NVFP4 Throughput-Champion (Allround + Coding) ~80 t/s n=1 · ~285 t/s n=4 · 438 t/s n=8 (gemessen 2026-05-22, RedHatAI-Quant)
Qwen3.6-35B-A3B-FP8 Allround + Coding (offene FP8-Variante) 77 t/s n=1 · 280 t/s n=4 · 426 t/s n=8 (gemessen 2026-05-21)
Qwen3.6-27B-FP8 Dense / höchste Single-Antwort-Qualität 44 t/s n=1 · 145 t/s n=4 · 252 t/s n=8 (gemessen 2026-05-10)
Gemma 4 26B-A4B-it-BF16 Multimodal (Vision + Audio) 50 t/s n=1 · 150 t/s n=4 · 231 t/s n=8 (gemessen 2026-05-15)
Qwen3.5-397B-A17B-NVFP4 Frontier-Reasoning 40 t/s n=1 · 84 t/s n=4 · 111 t/s n=8 (gemessen 2026-04-16)
Nemotron-3-Super-120B-A12B-NVFP4 Frontier-Reasoning (Mamba2-Hybrid), 512K Kontext 29 t/s n=1 · 89 t/s n=4 · 135 t/s n=8 (gemessen 2026-06-04) · ~285 t/s bei n=32 (Live-Betrieb, steigt mit höherer Parallelität weiter (bis zur Sättigung))
Nemotron-3-Ultra-550B-A55B-NVFP4 Größtes validiertes Modell, Frontier-Reasoning, 512K Kontext 10 t/s n=1 · 29 t/s n=4 · 43 t/s n=8 (gemessen 2026-06-06)
Qwen3-235B-A22B-FP8 parallel zum Hauptmodell, hot-loaded Multi-Modell-Betrieb ohne Reload zwischen Use-Cases

Performance-Werte indikativ, gemessen auf Referenz-Hardware mit SGLang. Tatsächliche Werte hängen von Topologie, Quantisierung, Kontext-Länge und Last ab. Wir besprechen die für Ihren Use-Case relevanten Modelle im Erstgespräch: keine Tabellen-Akrobatik nötig.

Upgrade-Pfad

Erweiterung auf KI:KUBE 6 möglich (~10.900 € + Service); für sehr großes Wachstum eher zweite Box parallel als Hot-Standby/Multi-Site.

Volle Preisübersicht →

KI:KUBE 4 an einem Ihrer eigenen Dokumente sehen.

Demo anfragen