Modelle
Vier Ausbaustufen. Eine Architektur.
KI:KUBE 2 für kleinere Teams, KI:KUBE 4 als Standard, KI:KUBE 6 für sehr große Lasten und KI:KUBE 8 als Top-Modell für die größeren Frontier-Modelle in höherer Präzision. Alle laufen mit demselben Software-Stack, gleichem Compliance-Profil und gleichem Update-Regime, sie skalieren in der Hardware, nicht in der Bedienung.
KI:KUBE 2
Einstieg in lokale Frontier-KI, für kleinere Teams ohne Kompromiss bei der Datenhoheit.
- Kapazität
- 5–10 Chat-User parallel · 20+ Async-Streams
- Preis
- ab ~22.900 € (System-Kauf)
- Managed
- ab 1.790 € / Mo
- Status
- verfügbar
KI:KUBE 4
Die Standard-Ausbaustufe: empfohlen für Kanzleien, StB-Büros und mittelständische Software-Häuser.
- Kapazität
- 10–30 Chat-User parallel · 80+ Async-Streams
- Preis
- ab 29.900 € (System-Kauf)
- Managed
- ab 2.490 € / Mo
- Status
- verfügbar
KI:KUBE 6
Die Pro-Variante: für sehr große Teams, paralleles Multi-Modell oder Frontier-Reasoning ohne Quantisierungs-Kompromiss.
- Kapazität
- 30–60 Chat-User parallel · 150+ Async-Streams
- Preis
- ab ~39.900 € (auf Anfrage konfiguriert)
- Managed
- ab 3.290 € / Mo
- Status
- auf Anfrage
KI:KUBE 8
Das Top-Modell: maximale Unified-Memory-Reserven für die größten Frontier-Modelle in hoher Präzision und parallele Multi-Modell-Bestückung ohne Reload.
- Kapazität
- 60–90 Chat-User parallel · 200+ Async-Streams
- Preis
- ab ~49.900 € (auf Anfrage konfiguriert)
- Managed
- ab 4.090 € / Mo
- Status
- auf Anfrage
KI:KUBE 2-slim
Gleiche Compute wie die KI:KUBE 2 im kompakten 10-Zoll-Gehäuse, ohne 400GbE-Inference-Switch, der günstigste Einstieg.
Direkter Vergleich
Was unterscheidet die vier Ausbaustufen?
Was identisch ist: Software-Stack, Compliance-Wirkung, Bedienung. Was sich unterscheidet: Kapazität, Modell-Tiefe und Reserven.
| Eigenschaft | KI:KUBE 2 | KI:KUBE 4 | KI:KUBE 6 | KI:KUBE 8 |
|---|---|---|---|---|
| DGX-Spark-Knoten | 2× | 4× | 6× | 8× |
| GPU-Memory (Unified) | 256 GB | 512 GB | 768 GB | 1024 GB |
| Formfaktor | 19-Zoll-Rack, 18 HE - alternativ als KI:KUBE 2-slim im kompakten 10-Zoll-Gehäuse | 19-Zoll-Rack, 18 HE | 19-Zoll-Rack, 18 HE | 19-Zoll-Rack, 18 HE |
| Leistungsaufnahme | ~0,3 kW unter Inferenz-Volllast (skaliert aus 4-Node-Lauf) | ~0,6 kW unter Inferenz-Volllast (gemessen) | ~0,9 kW unter Inferenz-Volllast (skaliert aus 4-Node-Lauf) | ~1,2 kW unter Inferenz-Volllast (skaliert aus 4-Node-Lauf) |
| Kapazität | 5–10 Chat-User parallel · 20+ Async-Streams | 10–30 Chat-User parallel · 80+ Async-Streams | 30–60 Chat-User parallel · 150+ Async-Streams | 60–90 Chat-User parallel · 200+ Async-Streams |
| Preis-Indikation | ab ~22.900 € (System-Kauf) | ab 29.900 € (System-Kauf) | ab ~39.900 € (auf Anfrage konfiguriert) | ab ~49.900 € (auf Anfrage konfiguriert) |
| Managed (mtl.) | ab 1.790 € / Mo | ab 2.490 € / Mo | ab 3.290 € / Mo | ab 4.090 € / Mo |
| Status | verfügbar | verfügbar | auf Anfrage | auf Anfrage |
Gemessene Performance
Was die KI:KUBE 4 wirklich liefert.
Werte aus unseren Test-Matrizen: 4× DGX Spark GB10, sglang 0.5.10–0.5.12, kv_cache=fp8_e4m3, MTP (NEXTN) wo unterstützt. n=1/4/8 ist die Zahl paralleler Inference-Requests an SGLang.
| Modell | Stärke | n=1 tok/s | n=4 tok/s | n=8 tok/s | Gemessen |
|---|---|---|---|---|---|
| Qwen3.6-35B-A3B-NVFP4 | Throughput-Champion (Allround + Coding), ~2× kleinerer Memory-Footprint | ~80 | ~285 | 438 | 2026-05-22 |
| Qwen3.6-35B-A3B-FP8 | Allround + Coding (offene FP8-Variante) | 77 | 280 | 426 | 2026-05-21 |
| Qwen3.6-27B-FP8 | Dense, höchste Single-Antwort-Qualität | 44 | 145 | 252 | 2026-05-10 |
| Gemma 4 26B-A4B-it-BF16 | Multimodal (Vision + Audio) | 50 | 150 | 231 | 2026-05-15 |
| Gemma 4 31B-it-BF16 | Dense multimodal (Vision + Audio) | 23 | 75 | 134 | 2026-05-13 |
| Qwen3.5-397B-A17B-NVFP4 | Frontier-Reasoning | 40 | 84 | 111 | 2026-04-16 |
| Nemotron-3-Super-120B-A12B-NVFP4 | Frontier-Reasoning (Mamba2-Hybrid), ~285 t/s bei n=32 (Live-Messung 2026-06-12), steigt mit höherer Parallelität weiter (bis zur Sättigung) | 29 | 89 | 135 | 2026-06-04 |
| Nemotron-3-Ultra-550B-A55B-NVFP4 | Größtes validiertes Modell (550B), Frontier-Reasoning, 512K Kontext validiert | 10 | 29 | 43 | 2026-06-06 |
| GLM-4.7-NVFP4 | Math-Spitzenmodell | 24 | 55 | 81 | 2026-04-16 |
Wie zu lesen: n=1 = einzelner Request, schnellste Antwort. n=8 = acht gleichzeitige Requests an SGLang, summierter Durchsatz. Bei Qwen3.6-35B-A3B-NVFP4 liefert die Box also 438 Token pro Sekunde auf alle acht Requests verteilt, typische Antwortgröße eines Mandanten-Schreibens in ~3–5 Sekunden, auch wenn parallel sieben andere arbeiten.
KI:KUBE 2: kleinere Modelle (Qwen3.6-35B-A3B, Qwen3-235B-A22B) laufen komfortabel; Throughput skaliert grob mit der Knoten-Zahl. Konkrete 2-Spark-Messung im Erstgespräch. KI:KUBE 6: ermöglicht Frontier-Modelle mit mehr Parallelität/Gesamtdurchsatz oder parallele Modell-Bestückung ohne Reload.
Lesehilfe Kapazitätsangaben
- n (Benchmark): parallele Inference-Requests, wie sie SGLang sieht. Direkt gemessen.
- Chat-User parallel: Mitarbeiter, die gleichzeitig auf eine Antwort warten (Latenz-SLO: p95 TTFT < 2s). KI:KUBE 4 ≈ 10–30, KI:KUBE 6 ≈ 30–60.
- Async-Streams queueable: Hintergrund-Workloads (E-Mail-Triage, Agent-Workflows, PR-Reviews). Hier zählt Tagesdurchsatz, nicht Latenz. KI:KUBE 4 ≈ 80+, KI:KUBE 6 ≈ 150+.
- Live User / Headcount: Mitarbeiter mit Zugriff im LAN. Typischer Duty-Cycle: 20–40 % gleichzeitig aktiv im Tagesgeschäft. Eine KI:KUBE 4 eignet sich darum für Mittelstands-Teams von rund 80–150 MA (bei typischem Duty-Cycle).
Indikative Werte: die tatsächliche Kapazität hängt sehr von der Modellwahl ab und ist zusätzlich use-case-abhängig (Coding-Agent ≠ Mandantenakte zusammenfassen ≠ RAG-Query). Im Erstgespräch verfeinerbar.
Sie denken in Aufgaben, nicht in Modellnamen?
Empfehlungsmatrix nach Anwendungsfall: Vertragsanalyse, Coding, Vision, Agentic, Helpdesk …
Begriffsklärung
‚Modelle' meint die KI:KUBE-Hardware, nicht die Sprachmodelle.
Die vier Ausbaustufen KI:KUBE 2 / 4 / 6 / 8 beschreiben unsere Hardware-Konfigurationen, ähnlich wie Auto-Modelle einer Baureihe. Die Sprachmodelle (Qwen, Gemma, Llama, DeepSeek …), die darauf laufen, sind etwas anderes, sie kommen aus der Open-Weight-Welt und werden auf jeder KI:KUBE kuratiert eingespielt.
Welche Sprachmodelle auf welcher KI:KUBE-Ausbaustufe laufen, ist im jeweiligen Produkt-Detail beispielhaft gelistet, mit gemessenen Throughput-Zahlen. Die ausführlichen Validated Profiles (Engine-Konfiguration, Sampling-Parameter, exakte Backend-Wahl pro Modell) sind Bestandteil der Lieferung, wir veröffentlichen die Performance-Ergebnisse, behalten aber die Tuning-Arbeit dahinter als kuratiertes Asset. Wenn Sie für eine Pre-Sales-Einschätzung wissen möchten, ob ein bestimmtes Modell auf einer bestimmten Ausbaustufe sinnvoll läuft, fragen Sie einfach.
Welche Ausbaustufe passt zu Ihnen? Im Erstgespräch klären wir das in 20 Minuten.
Erstgespräch vereinbaren