Modelle

Vier Ausbaustufen. Eine Architektur.

KI:KUBE 2 für kleinere Teams, KI:KUBE 4 als Standard, KI:KUBE 6 für sehr große Lasten und KI:KUBE 8 als Top-Modell für die größeren Frontier-Modelle in höherer Präzision. Alle laufen mit demselben Software-Stack, gleichem Compliance-Profil und gleichem Update-Regime, sie skalieren in der Hardware, nicht in der Bedienung.

2× DGX Spark · 256 GB

KI:KUBE 2

Einstieg in lokale Frontier-KI, für kleinere Teams ohne Kompromiss bei der Datenhoheit.

Kapazität: 5–10 Chat-User parallel · 20+ Async-Streams
Preis: ab ~22.900 € (System-Kauf)
Managed: ab 1.790 € / Mo
Status: verfügbar

KI:KUBE 2 im Detail →

KI:KUBE 4

Die Standard-Ausbaustufe: empfohlen für Kanzleien, StB-Büros und mittelständische Software-Häuser.

Kapazität: 10–30 Chat-User parallel · 80+ Async-Streams
Preis: ab 29.900 € (System-Kauf)
Managed: ab 2.490 € / Mo
Status: verfügbar

KI:KUBE 4 im Detail →

6× DGX Spark · 768 GB

KI:KUBE 6

Die Pro-Variante: für sehr große Teams, paralleles Multi-Modell oder Frontier-Reasoning ohne Quantisierungs-Kompromiss.

Kapazität: 30–60 Chat-User parallel · 150+ Async-Streams
Preis: ab ~39.900 € (auf Anfrage konfiguriert)
Managed: ab 3.290 € / Mo
Status: auf Anfrage

KI:KUBE 6 im Detail →

8× DGX Spark · 1024 GB

KI:KUBE 8

Das Top-Modell: maximale Unified-Memory-Reserven für die größten Frontier-Modelle in hoher Präzision und parallele Multi-Modell-Bestückung ohne Reload.

Kapazität: 60–90 Chat-User parallel · 200+ Async-Streams
Preis: ab ~49.900 € (auf Anfrage konfiguriert)
Managed: ab 4.090 € / Mo
Status: auf Anfrage

KI:KUBE 8 im Detail →

Kompakte Variante · 2× DGX Spark

KI:KUBE 2-slim

Gleiche Compute wie die KI:KUBE 2 im kompakten 10-Zoll-Gehäuse, ohne 400GbE-Inference-Switch, der günstigste Einstieg.

ab 18.900 €

System-Kauf · oder Managed ab 1.611 €/Mo

Direkter Vergleich

Was unterscheidet die vier Ausbaustufen?

Was identisch ist: Software-Stack, Compliance-Wirkung, Bedienung. Was sich unterscheidet: Kapazität, Modell-Tiefe und Reserven.

Eigenschaft	KI:KUBE 2	KI:KUBE 4	KI:KUBE 6	KI:KUBE 8
DGX-Spark-Knoten	2×	4×	6×	8×
GPU-Memory (Unified)	256 GB	512 GB	768 GB	1024 GB
Formfaktor	19-Zoll-Rack, 18 HE - alternativ als KI:KUBE 2-slim im kompakten 10-Zoll-Gehäuse	19-Zoll-Rack, 18 HE	19-Zoll-Rack, 18 HE	19-Zoll-Rack, 18 HE
Leistungsaufnahme	~0,3 kW unter Inferenz-Volllast (skaliert aus 4-Node-Lauf)	~0,6 kW unter Inferenz-Volllast (gemessen)	~0,9 kW unter Inferenz-Volllast (skaliert aus 4-Node-Lauf)	~1,2 kW unter Inferenz-Volllast (skaliert aus 4-Node-Lauf)
Kapazität	5–10 Chat-User parallel · 20+ Async-Streams	10–30 Chat-User parallel · 80+ Async-Streams	30–60 Chat-User parallel · 150+ Async-Streams	60–90 Chat-User parallel · 200+ Async-Streams
Preis-Indikation	ab ~22.900 € (System-Kauf)	ab 29.900 € (System-Kauf)	ab ~39.900 € (auf Anfrage konfiguriert)	ab ~49.900 € (auf Anfrage konfiguriert)
Managed (mtl.)	ab 1.790 € / Mo	ab 2.490 € / Mo	ab 3.290 € / Mo	ab 4.090 € / Mo
Status	verfügbar	verfügbar	auf Anfrage	auf Anfrage

Gemessene Performance

Was die KI:KUBE 4 wirklich liefert.

Werte aus unseren Test-Matrizen: 4× DGX Spark GB10, sglang 0.5.10–0.5.12, kv_cache=fp8_e4m3, MTP (NEXTN) wo unterstützt. n=1/4/8 ist die Zahl paralleler Inference-Requests an SGLang.

Modell	Stärke	n=1 tok/s	n=4 tok/s	n=8 tok/s	Gemessen
Qwen3.6-35B-A3B-NVFP4	Throughput-Champion (Allround + Coding), ~2× kleinerer Memory-Footprint	~80	~285	438	2026-05-22
Qwen3.6-35B-A3B-FP8	Allround + Coding (offene FP8-Variante)	77	280	426	2026-05-21
Qwen3.6-27B-FP8	Dense, höchste Single-Antwort-Qualität	44	145	252	2026-05-10
Gemma 4 26B-A4B-it-BF16	Multimodal (Vision + Audio)	50	150	231	2026-05-15
Gemma 4 31B-it-BF16	Dense multimodal (Vision + Audio)	23	75	134	2026-05-13
Qwen3.5-397B-A17B-NVFP4	Frontier-Reasoning	40	84	111	2026-04-16
Nemotron-3-Super-120B-A12B-NVFP4	Frontier-Reasoning (Mamba2-Hybrid), ~285 t/s bei n=32 (Live-Messung 2026-06-12), steigt mit höherer Parallelität weiter (bis zur Sättigung)	29	89	135	2026-06-04
Nemotron-3-Ultra-550B-A55B-NVFP4	Größtes validiertes Modell (550B), Frontier-Reasoning, 512K Kontext validiert	10	29	43	2026-06-06
GLM-4.7-NVFP4	Math-Spitzenmodell	24	55	81	2026-04-16

Wie zu lesen: n=1 = einzelner Request, schnellste Antwort. n=8 = acht gleichzeitige Requests an SGLang, summierter Durchsatz. Bei Qwen3.6-35B-A3B-NVFP4 liefert die Box also 438 Token pro Sekunde auf alle acht Requests verteilt, typische Antwortgröße eines Mandanten-Schreibens in ~3–5 Sekunden, auch wenn parallel sieben andere arbeiten.

KI:KUBE 2: kleinere Modelle (Qwen3.6-35B-A3B, Qwen3-235B-A22B) laufen komfortabel; Throughput skaliert grob mit der Knoten-Zahl. Konkrete 2-Spark-Messung im Erstgespräch. KI:KUBE 6: ermöglicht Frontier-Modelle mit mehr Parallelität/Gesamtdurchsatz oder parallele Modell-Bestückung ohne Reload.

Lesehilfe Kapazitätsangaben

n (Benchmark): parallele Inference-Requests, wie sie SGLang sieht. Direkt gemessen.
Chat-User parallel: Mitarbeiter, die gleichzeitig auf eine Antwort warten (Latenz-SLO: p95 TTFT < 2s). KI:KUBE 4 ≈ 10–30, KI:KUBE 6 ≈ 30–60.
Async-Streams queueable: Hintergrund-Workloads (E-Mail-Triage, Agent-Workflows, PR-Reviews). Hier zählt Tagesdurchsatz, nicht Latenz. KI:KUBE 4 ≈ 80+, KI:KUBE 6 ≈ 150+.
Live User / Headcount: Mitarbeiter mit Zugriff im LAN. Typischer Duty-Cycle: 20–40 % gleichzeitig aktiv im Tagesgeschäft. Eine KI:KUBE 4 eignet sich darum für Mittelstands-Teams von rund 80–150 MA (bei typischem Duty-Cycle).

Indikative Werte: die tatsächliche Kapazität hängt sehr von der Modellwahl ab und ist zusätzlich use-case-abhängig (Coding-Agent ≠ Mandantenakte zusammenfassen ≠ RAG-Query). Im Erstgespräch verfeinerbar.

Sie denken in Aufgaben, nicht in Modellnamen?

Empfehlungsmatrix nach Anwendungsfall: Vertragsanalyse, Coding, Vision, Agentic, Helpdesk …

Welches Modell für welchen Job? →

Begriffsklärung

‚Modelle' meint die KI:KUBE-Hardware, nicht die Sprachmodelle.

Die vier Ausbaustufen KI:KUBE 2 / 4 / 6 / 8 beschreiben unsere Hardware-Konfigurationen, ähnlich wie Auto-Modelle einer Baureihe. Die Sprachmodelle (Qwen, Gemma, Llama, DeepSeek …), die darauf laufen, sind etwas anderes, sie kommen aus der Open-Weight-Welt und werden auf jeder KI:KUBE kuratiert eingespielt.

Welche Sprachmodelle auf welcher KI:KUBE-Ausbaustufe laufen, ist im jeweiligen Produkt-Detail beispielhaft gelistet, mit gemessenen Throughput-Zahlen. Die ausführlichen Validated Profiles (Engine-Konfiguration, Sampling-Parameter, exakte Backend-Wahl pro Modell) sind Bestandteil der Lieferung, wir veröffentlichen die Performance-Ergebnisse, behalten aber die Tuning-Arbeit dahinter als kuratiertes Asset. Wenn Sie für eine Pre-Sales-Einschätzung wissen möchten, ob ein bestimmtes Modell auf einer bestimmten Ausbaustufe sinnvoll läuft, fragen Sie einfach.

Welche Ausbaustufe passt zu Ihnen? Im Erstgespräch klären wir das in 20 Minuten.

Erstgespräch vereinbaren