Modell · 4× DGX Spark
KI:KUBE 4
Die Standard-Ausbaustufe: empfohlen für Kanzleien, StB-Büros und mittelständische Software-Häuser.
Indikativer Wert: die tatsächliche Nutzer-/Stream-Kapazität hängt sehr von der Modellwahl ab.
Auch als Managed-Service ab 2.490 € / Monat, Investitionswege & TCO-Rechner auf /preise.
Positionierung
Wann KI:KUBE 4 die richtige Wahl ist
Wenn Sie nicht in jedem Quartal über Kapazität nachdenken wollen: KI:KUBE 4 deckt den Großteil der produktiven Use-Cases ab, von Mandantenakte bis Coding-Copilot für die ganze Entwicklung.
Typische Käufer: Kanzleien 15–50 Anwälte, mittlere StB/WP-Kanzleien, Software-Häuser 30–80 Devs, Klinik-IT, mittelständische Verwaltungen.
Hardware
Spezifikation
- DGX Spark Knoten
- 4×
- GPU-Memory (Unified)
- 512 GB
- Internes Netz
- MikroTik 400GbE-Switch (QSFP56-DD), je Spark 200GbE
- Formfaktor
- 19-Zoll-Rack, 18 HE
- Leistungsaufnahme
- ~0,6 kW unter Inferenz-Volllast (gemessen)
Highlights
Was diese Stufe besonders macht
Wirtschaftlichkeit
Sehr gute TCO-Lage: Break-Even (System-Kauf) gegenüber 30× ChatGPT Pro nach ~10,8 Monaten.
Multi-Modell-Betrieb
Großes Modell + spezialisiertes Coding-Modell parallel, kein Hot-Reload bei jedem Anwendungswechsel.
Pilotfähig
Das Pilot-2026-Programm setzt auf diese Ausbaustufe; größtes Erfahrungs-Set, schnellste Inbetriebnahme.
Eignung
Wofür gut, wofür nicht
Empfohlen für
- Frontier-Open-Weight-Modelle bis ~550B Parameter (NVFP4-quantisiert)
- Throughput-Champion Qwen3.6-35B-A3B-NVFP4 (438 t/s n=8, gemessen)
- Coding-Copilot für ganze Entwicklungs-Teams
- Multi-Tenant-RAG mit getrennten Dokumenten-Namespaces
- Pflichtschulungen + Routine-Tagesgeschäft gleichzeitig
Nicht sinnvoll für
- Massive Modell-Größen jenseits 500B Parameter ohne aggressive Quantisierung
- Trainings-Workloads (KI:KUBE ist eine Inferenz-Appliance, kein Trainings-Cluster)
Was läuft darauf?
Beispielhafte Sprachmodelle
Auswahl bekannter Open-Weight-Modelle, die auf dieser Ausbaustufe sinnvoll laufen, die vollständige, validierte Konfiguration ist Bestandteil der Lieferung und wird nicht öffentlich publiziert.
| Sprachmodell | Use Case | Performance (Indikation) |
|---|---|---|
| Qwen3.6-35B-A3B-NVFP4 | Throughput-Champion (Allround + Coding) | ~80 t/s n=1 · ~285 t/s n=4 · 438 t/s n=8 (gemessen 2026-05-22, RedHatAI-Quant) |
| Qwen3.6-35B-A3B-FP8 | Allround + Coding (offene FP8-Variante) | 77 t/s n=1 · 280 t/s n=4 · 426 t/s n=8 (gemessen 2026-05-21) |
| Qwen3.6-27B-FP8 | Dense / höchste Single-Antwort-Qualität | 44 t/s n=1 · 145 t/s n=4 · 252 t/s n=8 (gemessen 2026-05-10) |
| Gemma 4 26B-A4B-it-BF16 | Multimodal (Vision + Audio) | 50 t/s n=1 · 150 t/s n=4 · 231 t/s n=8 (gemessen 2026-05-15) |
| Qwen3.5-397B-A17B-NVFP4 | Frontier-Reasoning | 40 t/s n=1 · 84 t/s n=4 · 111 t/s n=8 (gemessen 2026-04-16) |
| Nemotron-3-Super-120B-A12B-NVFP4 | Frontier-Reasoning (Mamba2-Hybrid), 512K Kontext | 29 t/s n=1 · 89 t/s n=4 · 135 t/s n=8 (gemessen 2026-06-04) · ~285 t/s bei n=32 (Live-Betrieb, steigt mit höherer Parallelität weiter (bis zur Sättigung)) |
| Nemotron-3-Ultra-550B-A55B-NVFP4 | Größtes validiertes Modell, Frontier-Reasoning, 512K Kontext | 10 t/s n=1 · 29 t/s n=4 · 43 t/s n=8 (gemessen 2026-06-06) |
| Qwen3-235B-A22B-FP8 | parallel zum Hauptmodell, hot-loaded | Multi-Modell-Betrieb ohne Reload zwischen Use-Cases |
Performance-Werte indikativ, gemessen auf Referenz-Hardware mit SGLang. Tatsächliche Werte hängen von Topologie, Quantisierung, Kontext-Länge und Last ab. Wir besprechen die für Ihren Use-Case relevanten Modelle im Erstgespräch: keine Tabellen-Akrobatik nötig.
Upgrade-Pfad
Erweiterung auf KI:KUBE 6 möglich (~10.900 € + Service); für sehr großes Wachstum eher zweite Box parallel als Hot-Standby/Multi-Site.
Alternativen
Die anderen Ausbaustufen
KI:KUBE 2
Einstieg in lokale Frontier-KI, für kleinere Teams ohne Kompromiss bei der Datenhoheit.
KI:KUBE 2 ansehen →KI:KUBE 6
Die Pro-Variante: für sehr große Teams, paralleles Multi-Modell oder Frontier-Reasoning ohne Quantisierungs-Kompromiss.
KI:KUBE 6 ansehen →KI:KUBE 8
Das Top-Modell: maximale Unified-Memory-Reserven für die größten Frontier-Modelle in hoher Präzision und parallele Multi-Modell-Bestückung ohne Reload.
KI:KUBE 8 ansehen →KI:KUBE 4 an einem Ihrer eigenen Dokumente sehen.
Demo anfragen