KI:KUBE

Modelle

Vier Ausbaustufen. Eine Architektur.

KI:KUBE 2 für kleinere Teams, KI:KUBE 4 als Standard, KI:KUBE 6 für sehr große Lasten und KI:KUBE 8 als Top-Modell für die größeren Frontier-Modelle in höherer Präzision. Alle laufen mit demselben Software-Stack, gleichem Compliance-Profil und gleichem Update-Regime, sie skalieren in der Hardware, nicht in der Bedienung.

Kompakte Variante · 2× DGX Spark

KI:KUBE 2-slim

Gleiche Compute wie die KI:KUBE 2 im kompakten 10-Zoll-Gehäuse, ohne 400GbE-Inference-Switch, der günstigste Einstieg.

ab 18.900 €
System-Kauf · oder Managed ab 1.611 €/Mo

Direkter Vergleich

Was unterscheidet die vier Ausbaustufen?

Was identisch ist: Software-Stack, Compliance-Wirkung, Bedienung. Was sich unterscheidet: Kapazität, Modell-Tiefe und Reserven.

Eigenschaft KI:KUBE 2 KI:KUBE 4 KI:KUBE 6 KI:KUBE 8
DGX-Spark-Knoten
GPU-Memory (Unified) 256 GB 512 GB 768 GB 1024 GB
Formfaktor 19-Zoll-Rack, 18 HE - alternativ als KI:KUBE 2-slim im kompakten 10-Zoll-Gehäuse 19-Zoll-Rack, 18 HE 19-Zoll-Rack, 18 HE 19-Zoll-Rack, 18 HE
Leistungsaufnahme ~0,3 kW unter Inferenz-Volllast (skaliert aus 4-Node-Lauf) ~0,6 kW unter Inferenz-Volllast (gemessen) ~0,9 kW unter Inferenz-Volllast (skaliert aus 4-Node-Lauf) ~1,2 kW unter Inferenz-Volllast (skaliert aus 4-Node-Lauf)
Kapazität 5–10 Chat-User parallel · 20+ Async-Streams 10–30 Chat-User parallel · 80+ Async-Streams 30–60 Chat-User parallel · 150+ Async-Streams 60–90 Chat-User parallel · 200+ Async-Streams
Preis-Indikation ab ~22.900 € (System-Kauf) ab 29.900 € (System-Kauf) ab ~39.900 € (auf Anfrage konfiguriert) ab ~49.900 € (auf Anfrage konfiguriert)
Managed (mtl.) ab 1.790 € / Mo ab 2.490 € / Mo ab 3.290 € / Mo ab 4.090 € / Mo
Status verfügbar verfügbar auf Anfrage auf Anfrage

Gemessene Performance

Was die KI:KUBE 4 wirklich liefert.

Werte aus unseren Test-Matrizen: 4× DGX Spark GB10, sglang 0.5.10–0.5.12, kv_cache=fp8_e4m3, MTP (NEXTN) wo unterstützt. n=1/4/8 ist die Zahl paralleler Inference-Requests an SGLang.

Modell Stärke n=1 tok/s n=4 tok/s n=8 tok/s Gemessen
Qwen3.6-35B-A3B-NVFP4 Throughput-Champion (Allround + Coding), ~2× kleinerer Memory-Footprint ~80 ~285 438 2026-05-22
Qwen3.6-35B-A3B-FP8 Allround + Coding (offene FP8-Variante) 77 280 426 2026-05-21
Qwen3.6-27B-FP8 Dense, höchste Single-Antwort-Qualität 44 145 252 2026-05-10
Gemma 4 26B-A4B-it-BF16 Multimodal (Vision + Audio) 50 150 231 2026-05-15
Gemma 4 31B-it-BF16 Dense multimodal (Vision + Audio) 23 75 134 2026-05-13
Qwen3.5-397B-A17B-NVFP4 Frontier-Reasoning 40 84 111 2026-04-16
Nemotron-3-Super-120B-A12B-NVFP4 Frontier-Reasoning (Mamba2-Hybrid), ~285 t/s bei n=32 (Live-Messung 2026-06-12), steigt mit höherer Parallelität weiter (bis zur Sättigung) 29 89 135 2026-06-04
Nemotron-3-Ultra-550B-A55B-NVFP4 Größtes validiertes Modell (550B), Frontier-Reasoning, 512K Kontext validiert 10 29 43 2026-06-06
GLM-4.7-NVFP4 Math-Spitzenmodell 24 55 81 2026-04-16

Wie zu lesen: n=1 = einzelner Request, schnellste Antwort. n=8 = acht gleichzeitige Requests an SGLang, summierter Durchsatz. Bei Qwen3.6-35B-A3B-NVFP4 liefert die Box also 438 Token pro Sekunde auf alle acht Requests verteilt, typische Antwortgröße eines Mandanten-Schreibens in ~3–5 Sekunden, auch wenn parallel sieben andere arbeiten.

KI:KUBE 2: kleinere Modelle (Qwen3.6-35B-A3B, Qwen3-235B-A22B) laufen komfortabel; Throughput skaliert grob mit der Knoten-Zahl. Konkrete 2-Spark-Messung im Erstgespräch. KI:KUBE 6: ermöglicht Frontier-Modelle mit mehr Parallelität/Gesamtdurchsatz oder parallele Modell-Bestückung ohne Reload.

Lesehilfe Kapazitätsangaben

  • n (Benchmark): parallele Inference-Requests, wie sie SGLang sieht. Direkt gemessen.
  • Chat-User parallel: Mitarbeiter, die gleichzeitig auf eine Antwort warten (Latenz-SLO: p95 TTFT < 2s). KI:KUBE 4 ≈ 10–30, KI:KUBE 6 ≈ 30–60.
  • Async-Streams queueable: Hintergrund-Workloads (E-Mail-Triage, Agent-Workflows, PR-Reviews). Hier zählt Tagesdurchsatz, nicht Latenz. KI:KUBE 4 ≈ 80+, KI:KUBE 6 ≈ 150+.
  • Live User / Headcount: Mitarbeiter mit Zugriff im LAN. Typischer Duty-Cycle: 20–40 % gleichzeitig aktiv im Tagesgeschäft. Eine KI:KUBE 4 eignet sich darum für Mittelstands-Teams von rund 80–150 MA (bei typischem Duty-Cycle).

Indikative Werte: die tatsächliche Kapazität hängt sehr von der Modellwahl ab und ist zusätzlich use-case-abhängig (Coding-Agent ≠ Mandantenakte zusammenfassen ≠ RAG-Query). Im Erstgespräch verfeinerbar.

Sie denken in Aufgaben, nicht in Modellnamen?

Empfehlungsmatrix nach Anwendungsfall: Vertragsanalyse, Coding, Vision, Agentic, Helpdesk …

Welches Modell für welchen Job? →

Begriffsklärung

‚Modelle' meint die KI:KUBE-Hardware, nicht die Sprachmodelle.

Die vier Ausbaustufen KI:KUBE 2 / 4 / 6 / 8 beschreiben unsere Hardware-Konfigurationen, ähnlich wie Auto-Modelle einer Baureihe. Die Sprachmodelle (Qwen, Gemma, Llama, DeepSeek …), die darauf laufen, sind etwas anderes, sie kommen aus der Open-Weight-Welt und werden auf jeder KI:KUBE kuratiert eingespielt.

Welche Sprachmodelle auf welcher KI:KUBE-Ausbaustufe laufen, ist im jeweiligen Produkt-Detail beispielhaft gelistet, mit gemessenen Throughput-Zahlen. Die ausführlichen Validated Profiles (Engine-Konfiguration, Sampling-Parameter, exakte Backend-Wahl pro Modell) sind Bestandteil der Lieferung, wir veröffentlichen die Performance-Ergebnisse, behalten aber die Tuning-Arbeit dahinter als kuratiertes Asset. Wenn Sie für eine Pre-Sales-Einschätzung wissen möchten, ob ein bestimmtes Modell auf einer bestimmten Ausbaustufe sinnvoll läuft, fragen Sie einfach.

Welche Ausbaustufe passt zu Ihnen? Im Erstgespräch klären wir das in 20 Minuten.

Erstgespräch vereinbaren