KI:KUBE

Souveräne KI-Appliance · Made in Germany

Frontier-KI.
Eigene Daten.
Keine Cloud.

Schlüsselfertige KI-Appliance für Kanzleien, Steuerberater und den Mittelstand.

ChatGPT-Niveau auf 2 bis 6 DGX Spark (empfohlen 4), in einem 19-Zoll-Gehäuse, Ihre Daten verlassen nie Ihr Netzwerk. § 203 StGB, DSGVO und EU AI Act sind strukturell gelöst.

Brüssel kann regulieren. Washington kann abschalten. KI:KUBE läuft.

KI:KUBE · Render

KI-generierte Visualisierung der KI:KUBE-Appliance.
NVIDIA-Hardware · benchmark-validiert Made in Germany DSGVO: Daten bleiben im Haus EU AI Act Art. 4 (Schulungsbundle) § 203 StGB (Berufsgeheimnis) Läuft an normaler Steckdose Multi-OEM · kein Vendor-Lock-in KfW-Förderung möglich

KI-Appliance-Gesamtlösung für alle, bei denen Souveränität in der Infrastruktur und bei der Verarbeitung proprietärer Daten erfolgskritisch ist.

Keine
Cloud-Inferenz
Daten bleiben strukturell im Haus
~10,8 Mon.
Break-Even (System-Kauf)
vs. 30× ChatGPT Pro 100
438 tok/s
Chat-Peak
Qwen3.6-35B-A3B-NVFP4 @ 4-Node, n=8
<1 %
Preemption
unter SLO (p95 TTFT < 2s, Referenz-Topologie)
512 GB
Unified GPU-Memory
4× DGX Spark · 256/768 GB skalierbar
~4 PFLOPS
FP4 (Sparse)
~1 PFLOP INT8 dense
Frontier
Open-Weight-Modelle
z.B. Qwen3-235B
Made in
Germany
Entwicklung & Support aus DE

Das Problem

Cloud-KI ist teuer, riskant, und Eigenbau ist zu komplex.

Die meisten KI-nutzenden Unternehmen in Deutschland arbeiten heute über externe, überwiegend US-basierte Schnittstellen. Das funktioniert für unkritische Aufgaben, bricht aber bei Mandantenakten, Patientendaten und IP-relevantem Code zusammen.

Cloud-KI ist teuer

30 × ChatGPT Pro für ein Mittelstands-Team kosten rund 2.760 € pro Monat, und der Preis steigt jährlich. OpenAI-API-Token-Budgets explodieren ähnlich.

Cloud-KI ist riskant

Mandantenakten in US-Clouds können § 203 StGB berühren. Und die Rechtslage für US-Datentransfers bleibt rechtspolitisch umstritten. Ein einziger Vorfall reicht: Berufshaftpflicht und Reputation stehen auf dem Spiel.

Eigenbau ist zu komplex

GPU-Cluster, K3s, SGLang, Quantisierung, Monitoring, Updates: Engineering-Schwerstarbeit, bevor das erste Modell antwortet. Und dann fehlen Validated Profiles.

Aktuell · 13. Juni 2026

Warum jetzt? Der Fall Anthropic.

Am 13. Juni 2026 musste Anthropic auf Anordnung von US-Regierungsstellen seine Spitzenmodelle (Fable 5 und Mythos 5) für alle Nicht-US-Bürger sperren, und nahm sie daraufhin vollständig vom Netz. Europa war über Nacht von einem der weltweit führenden KI-Systeme abgeschnitten. Ein bislang beispielloser Schritt: Eine Behörde ließ ein kommerziell ausgerolltes KI-Modell per Anordnung abschalten.

Das verändert die Debatte um Souveränität. Bisher ging es vor allem um Kosten: Cloud-KI wird strukturell teurer. Der Fall Anthropic eröffnet eine zweite, härtere Achse: Zugriff. Cloud-KI kann nicht nur teuer werden, sie kann per Behördenanordnung abgeschaltet werden.

„Europa hat sich zu lange eingeredet, es reiche, die besten KI-Modelle der Welt nutzen zu können. Diese Annahme ist nicht beschädigt. Sie ist obsolet."
Stephan Scheuer · Handelsblatt-Kommentar · 13.06.2026

Kosten-Risiko

Subventionierte Einführungspreise laufen aus, der Wechsel zur nutzungsbasierten Token-Abrechnung treibt die Rechnungen. Beim IT-Dienstleister Adesso hat sich der Tokenverbrauch binnen eines halben Jahres fast verhundertfacht: Token sind dort heute ein Budgetposten in sechsstelliger Höhe. Eine Preiserhöhung lässt sich immerhin planen und budgetieren, unangenehm, aber kalkulierbar.

Zugriffs-Risiko

Ein Cloud-Modell lässt sich per Anordnung abschalten: ohne Vorlauf, ohne Übergangsfrist. Ein Zugriffsentzug aus Washington lässt sich nicht budgetieren. Genau das ist neu.

26%
voller Kostenüberblick

Nur 26 % der Unternehmen haben laut einer KPMG-Umfrage einen umfassenden Überblick über ihre KI-Kosten, 22 % haben keinerlei Transparenz und erfahren die tatsächlichen Ausgaben erst mit der Abrechnung. Genau diese Unkalkulierbarkeit beseitigt eine fixe On-Prem-Investition: bekannte Anschaffung, bekannter Stromverbrauch, keine Token-Rechnung am Monatsende.

Quelle: KPMG-Umfrage, zitiert im Handelsblatt · 06/2026

Die KI:KUBE-Antwort: Souveränität heißt Besitz der Inferenz.

KI:KUBE führt keine Anthropic- oder OpenAI-Modelle aus und ersetzt kein gesperrtes Frontier-Modell eins zu eins. Wir kuratieren und konfigurieren die jeweils besten verfügbaren Open-Weight-Modelle (Qwen, Llama, DeepSeek, GPT-OSS), betrieben werden sie auf Ihrer eigenen Hardware in Ihrem Netzwerk. Und genau das ist der Punkt:

Man kann nicht von einem Modell ausgesperrt werden, das auf der eigenen Hardware liegt. Ein Open-Weight, das einmal läuft, kann keine US-Behörde zurückrufen.

Cloud-KI hat gerade vorgeführt, dass sie sich per Anordnung abschalten lässt. KI:KUBE hat keinen Schalter, an den Washington herankommt, und ist damit die Antwort auf beide Achsen: weder die Rechnung noch die Anordnung trifft etwas, das in der eigenen Steckdose hängt.

Die Lösung

Eine Box. Strom. LAN. Browser. Läuft.

Die KI:KUBE ist eine vorkonfigurierte KI-Appliance. Sie kommt im 19-Zoll-Gehäuse, wird angesteckt, und ist innerhalb eines Vormittags produktiv. Kein GPU-Cluster-Engineering, kein Modell-Tuning, kein Update-Stress.

  • Schlüsselfertig. Auspacken, einschalten, Browser öffnen, und loslegen.
  • Lokal. 512 GB GPU-Speicher, Frontier-Modelle, Ihre Daten bleiben im Haus.
  • Compliant. § 203 StGB, DSGVO, EU AI Act Art. 4: strukturell adressiert.
  • Herstellerneutral. Standard-Hardware, Multi-OEM-Rechenbausteine: Ersatzteile vom Distributor, kein Gold-Partner, kein Vendor-Lock-in.
KI:KUBE-Box · Front mit Statusdisplay

Kein Serverraum nötig

Auch die größte Ausbaustufe läuft an einer normalen Steckdose.

KI:KUBE 6 zieht unter Inferenz-Volllast nur ~0,9 kW (Lastspitzen ~1,1 kW): das passt mit großem Puffer auf jede 16A-Schuko-Steckdose. Keine Elektriker-Arbeiten, kein dedizierter Stromkreis, kein CEE-Drehstrom. Das einheitliche 18-HE-Schiebe-Rack (19 Zoll) passt in jeden Technikraum, ins Sideboard oder hinter eine Stellwand, gleiche Box-Größe für KI:KUBE 2 / 4 / 6 / 8, nur die Bestückung wächst. Die KI:KUBE 2-slim gibt es zusätzlich im kompakten 10-Zoll-Gehäuse.

Vergleichbare On-Prem-KI-Lösungen mit ~5 kW brauchen typischerweise CEE-Drehstrom oder zwei separate 16A-Kreise, und damit Bauarbeiten, bevor sie überhaupt einsatzfähig sind.

Auch danach lassen wir Sie nicht allein

Die Box läuft. Jetzt fängt die Arbeit an.

Fast alle deutschen Unternehmen wollen KI nutzen, bislang setzt nur ein kleiner Teil sie produktiv ein. Die Lücke entsteht selten am Modell, fast immer dazwischen: bei Use-Cases, Integration, Schulung. Genau da kommen wir ins Spiel: wir sind dafür da, dass Sie mit Ihrer KI:KUBE Erfolg haben.

01

Analyse

Use-Case-Workshop (remote oder auf Wunsch vor Ort), Prozesse durchgehen, 3–5 KI-Hebel mit gutem Aufwands-/Wirkungs-Verhältnis identifizieren.

ab 3.000 €
02

Anpassung

RAG auf Ihre Dokumente, n8n-Flows, API-Brücken, eigene System-Prompts. Iterativ, pragmatisch, mit den Anwendern.

Engineering on Demand · 145 €/Std.
03

Deploy-Loop

Vierteljährliches Review, neue Hebel identifizieren, Modell-Updates risikobewertet einspielen. Investition bleibt produktiv.

Care + Folge-Engineering
So gehen wir vor: drei Phasen, klar abgegrenzt

Vier Größen: eine Architektur

Vom Pilot-Team bis zum 120-User-Cluster.

Die KI:KUBE skaliert in vier Stufen mit Ihrem Bedarf: gleicher Software-Stack, gleiches Betriebskonzept, gleicher Stromanschluss. Nur mehr DGX-Spark-Nodes.

Einstieg

KI:KUBE 2

2 × DGX Spark
256 GB
Unified GPU-Memory

Kleine Teams · 5–10 gleichzeitige Chat-User · Pilot-Setups

~0,3 kW · Schuko 16A ab ~22.900 €
Empfohlen

KI:KUBE 4

4 × DGX Spark
512 GB
Unified GPU-Memory

Mittelstand · 10–30 gleichzeitige Chat-User · Frontier-Modelle (z.B. Qwen3-235B)

~0,6 kW · Schuko 16A ab 29.900 €
Power

KI:KUBE 6

6 × DGX Spark
768 GB
Unified GPU-Memory

Power-User · 30–60 Chat-User parallel · 150+ Async-Streams für E-Mail-Triage

~0,9 kW · Schuko 16A ab ~39.900 €
Top-Modell

KI:KUBE 8

8 × DGX Spark
1.024 GB
Unified GPU-Memory

Maximum · 60–90 Chat-User parallel · 200+ Async-Streams · größere Frontier-Modelle

~1,2 kW · Schuko 16A ab ~49.900 €

Nutzer- und Stream-Angaben sind indikative Werte: die tatsächliche Kapazität hängt sehr von der Modellwahl ab.

Als Investition in moderne IT-Infrastruktur kann eine KI:KUBE förderfähig sein: z. B. über den zinsgünstigen KfW ERP-Förderkredit Digitalisierung. Mehr zur Förderung →

Spec KI:KUBE 2 KI:KUBE 4 KI:KUBE 6 KI:KUBE 8
DGX-Spark-Nodes 2 4 6 8
Unified GPU-Memory 256 GB 512 GB 768 GB 1.024 GB
FP4 Compute (Sparse) ~2 PFLOPS ~4 PFLOPS ~6 PFLOPS ~8 PFLOPS
Stromverbrauch unter Inferenz-Volllast ~0,3 kW ~0,6 kW ~0,9 kW ~1,2 kW
Stromanschluss Schuko 16A Schuko 16A Schuko 16A Schuko 16A
Formfaktor 19″ · 18 HE 19″ · 18 HE 19″ · 18 HE 19″ · 18 HE
Chat-User parallel (p95 TTFT < 2s) 5–10 10–30 30–60 60–90
Async-Streams queueable 20+ 80+ 150+ 200+
System-Kauf (Einstieg) ~22.900 € 29.900 € ~39.900 € ~49.900 €
+ Faststart-Bundle (dazubuchbar) +8.180 € +8.180 € +8.180 € +8.180 €

Concurrent Chat-User = Mitarbeiter, die gleichzeitig auf eine Antwort warten (Latenz-SLO). Async-Streams = queue-bare Background-Workloads für E-Mail-Triage und Agent-Workflows (Tagesdurchsatz). KI:KUBE 2, 6 & 8: Durchsatz- und Nutzerwerte aus dem 4-Node-Lauf skaliert.

Software-Stack

Vorkonfiguriert. Versioniert. Wartbar.

Fünf Schichten, alle Komponenten Open Source, alle Konfigurationen Git-versioniert, und das Git liegt physisch auf Ihrer Appliance. Kein Black-Box-SaaS, kein Hersteller-Lock-in.

1

User-Apps

ChatGPT-ähnliche Oberflächen + Mail-Interface

Open WebUI Hermes WebUI Hermes Desktop Hermes Agent (per E-Mail: Triage & Assistenz) OpenAI-API-kompatibel
2

API-Gateway

Auth, Rate-Limit, Modell-Routing, Logging

LiteLLM SSO / lokale Accounts Rate-Limit pro Nutzer Audit-Log
3

Inference-Engines

Validated Profiles · gemessen, dokumentiert

SGLang RAG-Pipeline BGE-Embedding
4

K3s + GitOps

Forgejo on-prem: Source-of-Truth bleibt bei Ihnen

K3s (lightweight Kubernetes) Forgejo (Git, lokal) Prometheus + Grafana + Loki
5

DGX-OS + GPU + Netzwerk

NVIDIA-Hardware-Basis · RoCE-getuntes Mesh

NVIDIA DGX-OS Blackwell GB10 GPU + CUDA RoCE v2 (MikroTik 400GbE)
Open-Source-Stack: keine proprietären Komponenten im Inference-Pfad.
Source-of-Truth on-prem: Forgejo-Git läuft auf Ihrer Appliance.
Exit-Pfad eingebaut: Übergabeprotokoll am Vertragsende Standard.

Multi-Modell-Hosting

Ein Cluster, drei Use Cases: parallel.

Die KI:KUBE muss nicht für ein Modell reserviert sein. Mit dem internen Modell-Router laufen Chat, RAG-Embeddings und Coding-Modell zur gleichen Zeit auf derselben Hardware. Sie investieren einmal, nutzen mehrfach.

Haupt-LLM

Chat, Reasoning, Recherche · Frontier-Modell (z.B. Qwen3-235B oder Qwen3.6-35B-A3B) für die anspruchsvollen Anfragen.

~70 % GPU-Memory

BGE-Embedding

RAG-Index-Aufbau und Suchanfragen über Ihre eigenen Dokumente · BGE-M3 Multilingual für DE/EN mit hoher Genauigkeit.

~10 % GPU-Memory

Coding-Modell

IDE-Plugin (Continue, Cursor, Tabby, Aider), Commit-Messages, kleine Refactor-Aufgaben · spezialisiertes Code-LLM mit niedriger Latenz.

~15 % GPU-Memory

Auslastungs-Anteile indikativ für KI:KUBE 4. Wirklich verwendete Konfiguration variiert nach Modellauswahl und gleichzeitiger Last.

Versioniert · Beobachtet · Selbstheilend

Updates als Pull-Request. Rollback in Sekunden.

Jede Cluster-Änderung (neues Modell, neue Engine, neue Quantisierung) landet als Commit im Forgejo auf Ihrer Appliance. Der In-Cluster-Reconciler hält das Cluster auf dem Stand des Repos.

  • Pod-Crash erkannt & auto-restartet (K8s Standard).
  • Engine-Hängung erkannt & vorherige Version aus Git zurückgerollt.
  • Vollständige History: jede Änderung kommentiert, jede Version reproduzierbar.
git log --oneline · cluster-state
v2.1 Qwen3.6-35B NVFP4 (jetzt)
v2.0 Qwen3-235B
v1.4 Llama-3.3 70B · REGRESSION
v1.3 DeepSeek-R1 distill

↩ Qualitäts-Regression bei v1.4 vom Gate erkannt: automatischer Rollback auf v1.3, Kunde wurde benachrichtigt.

Pre-Deploy-Quality-Gate

Jedes Update geht erst durchs Labor, dann zu Ihnen.

Bevor ein neues Modell oder ein Engine-Update auf Ihre KI:KUBE ausgeliefert wird, durchläuft es 8 standardisierte Benchmarks. Wir vergleichen die Antwortqualität gegen die laufende Version. Verschlechterungen werden vor der Auslieferung sichtbar, und ausgeliefert wird erst, wenn das Gate auf PASS steht.

Reasoning

  • MMLU-Pro
  • GSM8K
  • IFEval (Instruction-Following)

Code

  • HumanEval
  • HumanEval+
  • MBPP+

Deutsch

  • MMLU-ProX-Lite DE
  • MMLU DE
  • + Wortsalat-Korrektheit

Drei Schwellen: eine Entscheidung

PASS
< 1 pp

Qualität gleich oder besser. Update wird ausgeliefert.

MARGINAL
1–3 pp

Auslieferung nur mit dokumentierter Rückfrage beim Kunden.

REGRESSION
> 3 pp

Update wird nicht ausgeliefert. Root-Cause-Analyse im Labor.

pp = Prozentpunkte gegenüber der laufenden Version, gemittelt über alle 8 Benchmarks. Kategorie-spezifische Schwellen können niedriger angesetzt sein.

Customer-Quality-Portal Geplant ab Q4/2026

Alle Gate-Reports zu Ihrer Konfiguration im Self-Service: historisch durchsuchbar, exportierbar, mit Diff zwischen Versionen.

In den Care-Paketen und Managed enthalten, geplante Verfügbarkeit ab Q4/2026.

Async-Workload · Hermes per E-Mail

Während Sie schlafen, arbeitet der Cluster die Queue ab.

Chat-User sind nicht der einzige Lasttyp. 200+ Mitarbeiter können morgens ihre Mails an den Hermes-Agent triagieren lassen: der Cluster nimmt die Queue auf, behandelt sie über den Tag und liefert priorisierte Antworten zurück. Latenz spielt hier keine Rolle, Tagesdurchsatz tut es.

  • 450+ tok/s sustained in der Referenzkonfiguration: Dauerlast, kein Spitzenwert.
  • 8 parallele Streams, linear skalierend mit Continuous Batching: Queue läuft an, Cluster zieht durch.
  • Kein Client-Setup beim Mitarbeiter: Mail an die Hermes-Adresse, Antwort kommt im Posteingang an.
  • Auch als Assistenz per E-Mail: Hermes triagiert nicht nur eingehende Mails, er ist auch direkt erreichbar: schreiben Sie ihm wie einer Assistenz, delegieren Sie Recherche, Zusammenfassung oder Entwurf, Antwort per Reply.
Hermes-Workflow im Detail
Hermes Queue · letzte 24h
8 Worker aktiv
Verarbeitet
1.847
Mails / 24h
Async-Sustained
462
tok/s · 8h-Dauerlast
Tages-Verteilung
00060912151823

In 4 Schritten produktiv

Vom Karton bis zur ersten Antwort: ein Vormittag.

1

Auspacken

18-HE-Box im Technikraum, Sideboard oder hinter einer Stellwand platzieren: kein Serverraum nötig.

2

Anschließen

Strom + LAN. Statusdisplay zeigt IP-Adresse.

3

Browser oder Mail-Client

WebUI (Open WebUI / Hermes WebUI) im internen Netz aufrufen oder Anfragen an den Hermes-Agent per E-Mail schicken: Login per SSO oder lokalem Account.

4

Loslegen

Frontier-Modelle, RAG auf eigenen Dokumenten, Coding-Copilot.

Statusdisplay am Gerät

Vorderseite mit eingebautem Display: aktuelle Auslastung, ROI-Ticker (indikativ eingesparte Cloud-Kosten in €), Cluster-Health, aktive Modelle. Sichtbar für CEO und IT-Leitung, ohne dass jemand das Dashboard öffnet.

Die relevanten Informationen direkt im Blick.

KI:KUBE Cluster · ht@dgxarley · 4 Nodes online --:--:--
ROI eingespart
€ 4.380,00
in 7 Wochen Betrieb · ggü. 30× ChatGPT Pro
Tokens heute
1.842.391
Mix Chat + Async-Queue
Auslastung
62 %
User aktiv
17 / 30
Qwen3-235B · BGE · Coder

Exemplarische Live-Vorschau · synthetische Beispieldaten

Souveränität · Made in Germany

DE-Anbieter, DE-Gerichtsstand, on-prem Source-of-Truth.

„Made in Germany" ist nicht nur ein Badge. Es bedeutet konkrete Differenzen, wenn Sie mit DSGVO, BfDI oder Sub-Auftragsverarbeitern arbeiten, und wenn Sie morgen aussteigen wollen.

DE-Anbieter direkt im DSGVO-Geltungsbereich

  • BfDI / LDA als zuständige Datenschutzaufsicht: keine ausländische Behördenkonstellation.
  • Deutscher Gerichtsstand: Streit über Verträge oder Schadensersatz bleibt im deutschen Recht.
  • Standard-AVV nach Art. 28 DSGVO als Vertragsanlage: DE-Vertragspartner, DE-Verarbeitung. Kein Schrems-II-Workaround mit SCC + EU-US-DPF + ggf. Restrisiko nötig.
  • Einfachere Sub-Auftragsverarbeiter-Topologie wenn Sie US-Subs ausschließen wollen: die KI:KUBE-Operating-Plane (Update-Distribution, Support) läuft auf Hetzner in Deutschland.

Source-of-Truth bleibt bei Ihnen

Konfiguration, Modell-Profile und History laufen im Forgejo on-prem auf Ihrer Appliance: nicht bei uns, nicht in einer Cloud, nicht im Ausland.

  • Auch wenn wir morgen verschwinden: Sie behalten Cluster, History und Manifeste vollständig.
  • Übergabeprotokoll am Vertragsende ist Standard-Anlage: kein Lock-in, keine Druckmittel.
  • Modelle sind Open-Weight (Hugging Face), Daten in Standardformaten: vollständige Datenportabilität.
Vollständiges Exit-Konzept

EU AI Act Art. 4 · Pflicht seit 02.02.2025

KI-Kompetenz-Schulung: gesetzlich verpflichtend. Bei uns im Paket.

Die Pflicht gilt bereits seit dem 02.02.2025: Alle KI-nutzenden Unternehmen müssen ihre Mitarbeiter zur KI-Kompetenz schulen. Ab dem 02.08.2026 greift die nationale Durchsetzung. Art. 4 steht nicht im bezifferten EU-Bußgeldkatalog, ist aber nicht sanktionslos: nationale Behörden können auf Basis nationalen Rechts ahnden, dazu kommen Haftungsrisiko und Nachweislast. Im KI:KUBE-Faststart-Bundle enthalten: keine separate Suche, keine Doku-Lücke.

  • Pauschal bis 25 Teilnehmer
  • Zertifikat pro Teilnehmer
  • Curriculum DSGVO-kompatibel
  • Audit-fähige Dokumentation

Stimmen

Was Fachpresse und Praxis sagen.

Indirekte Zitate, sinngemäß übernommen aus öffentlich zugänglichen Beiträgen: Quellen verlinkt im Pressespiegel.

„Wer Frontier-KI dauerhaft braucht, kommt an lokaler Hardware nicht vorbei. Die Cloud-Rechnung skaliert sonst durch die Decke."
Martin Brüggemann · t3n · 04/2026
„Die DGX-Spark-Architektur ist für mittelständische Inferenz-Workloads das, was die Workstation für die Workstation war: leise, lokal, ausreichend."
Igor Wallossek · IgorsLab · 01/2026
„Wir haben intern eine Kostenexplosion gesehen. Token sind mittlerweile ein relevanter Budgetposten in sechsstelliger Höhe."
Benedikt Bonnmann · Vorstand Adesso · Handelsblatt · 06/2026
„Um die Kosten im Griff zu behalten, und aus Datenschutzgründen, werden lokale Modelle an Bedeutung gewinnen: direkt auf der eigenen Hardware, im firmeneigenen Rechenzentrum."
Romano Roth · KI-Chef Zühlke · Handelsblatt · 06/2026
„Was heute noch nach Experimentierfreiheit aussieht, könnte bald zu einer Kostenrechnung werden. Wer nicht in eine Drosselungs-Falle laufen will, muss lokale Modelle ernsthaft in Betracht ziehen."
Stephan Scheuer · Handelsblatt · 05/2026
„Die KI-Souveränität Europas endet dort, wo eine US-Behörde den Stecker ziehen kann. Brüssel kann regulieren. Washington kann abschalten."
Stephan Scheuer · Handelsblatt-Kommentar zur Anthropic-Sperre · 13.06.2026

Wirtschaftlichkeit

Break-Even nach ~10,8 Monaten

System-Kauf 29.900 € gegenüber 30 × ChatGPT Pro à ~92 €/Monat. Danach laufen Modelle, RAG und Coding-Copilot ohne weitere Lizenzkosten, auf Hardware mit 5–7 Jahren produktiver Lebensdauer.

System-Kauf
~29.900 €
einmalig · inkl. vorkonfiguriertem Stack, Eigenbetrieb
Empfohlen
System-Kauf + Faststart
~38.080 €
mit Setup, Schulung, 12 Mo. Care
Managed
~2.490 €
pro Monat

Indikative Preise. Konkretes Angebot im Erstgespräch: abhängig von Topologie, Modellauswahl, Care-Stufe.

Care-Stufen · laufend

Wartung als Service: drei Stufen.

Care Basis

390 € / Monat
  • Update-Reviews
  • E-Mail-Support
  • Reaktion 2 Werktage
Empfohlen

Care Plus

850 € / Monat
  • + Telefon-Support
  • Reaktion 24h
  • Quartals-Health-Checks

Care Premium

1.390 € / Monat
  • + 4-Stunden-SLA
  • Jährliche Vor-Ort-Wartung
  • Priorisierte Modell-Updates

12 Mo. Care Basis im Faststart-Bundle enthalten. Managed enthält Premium-Care. Detail-Vergleich auf /preise/.

Transparenz

Sie sehen, wofür Sie zahlen.

Hardware und Integrationsleistung weisen wir getrennt aus, nicht als eine intransparente Summe. Sie zahlen den Marktpreis für Spitzen-Hardware und, klar abgegrenzt, für die Arbeit, die daraus ein schlüsselfertiges System macht.

Position 1
Hardware
Marktpreis · einzeln ausgewiesen
Position 2
Integration
RoCE, Stack, Profile, Gewährleistung, Erstinstallation
Position 3
Care · Schulung · RAG-Onboarding
optional, einzeln buchbar

FAQ

Häufige Fragen.

Was ist in der KI:KUBE drin?
Am Beispiel KI:KUBE 4 (Standard): 4× NVIDIA DGX Spark (512 GB Unified GPU-Memory, ~4 PFLOPS FP4 Sparse bzw. ~1 PFLOP INT8 dense, gemessen 438 tok/s n=8 mit Qwen3.6-35B-A3B-NVFP4, 426 mit der FP8-Variante), MikroTik 400GbE-Switch (QSFP56-DD, RoCE-Inference-Mesh, je Spark 200GbE), ein Control-Node (k3smaster) für die Cluster-Steuerung, ein SBC als Treiber des Statusdisplays sowie ein 2.5/10GbE-Switch für Management/Uplink, vorkonfigurierter Software-Stack: K3s, SGLang-Inference, Open WebUI bzw. Hermes WebUI, Hermes Agent mit E-Mail-Interface, RAG-Pipeline, Monitoring. Die Node-Zahl skaliert mit der Stufe (KI:KUBE 2/4/6/8 = 2/4/6/8 DGX Spark). Ein 19-Zoll-Gehäuse (18 HE, einheitlich für KI:KUBE 2/4/6/8; die KI:KUBE 2-slim alternativ im kompakten 10-Zoll-Gehäuse), ein Stromanschluss, ein LAN-Kabel.
Welche Modelle laufen darauf?
Frontier-Open-Weight-Modelle wie Qwen3-235B (FP8), Llama-3.x, DeepSeek, Mistral, Coding-spezialisierte Varianten. Wir kuratieren Validated Profiles: Modell × Engine × Quantisierung × Hardware, alle gemessen, alle dokumentiert.
Was, wenn mein KI-Anbieter den Zugang sperrt?
Genau dieser Fall ist am 13.06.2026 eingetreten: Auf Anordnung von US-Regierungsstellen musste Anthropic seine Spitzenmodelle (Fable 5, Mythos 5) für alle Nicht-US-Bürger abschalten und nahm sie daraufhin komplett vom Netz: Europa war über Nacht abgeschnitten. Bei einer KI:KUBE kann das strukturell nicht passieren: Auf Ihrer Box laufen Open-Weight-Modelle (Qwen, Llama, DeepSeek, GPT-OSS) auf Ihrer eigenen Hardware in Ihrem Netzwerk, wir kuratieren und konfigurieren sie (Validated Profiles), betrieben werden sie bei Ihnen. Ein Open-Weight, das einmal auf Ihrer Box läuft, kann weder ein Anbieter noch eine Behörde zurückrufen. Ein Preisanstieg lässt sich budgetieren, ein Zugriffsentzug aus Washington nicht, KI:KUBE entzieht beidem den Hebel.
Wie ist das mit § 203 StGB / DSGVO?
Die KI:KUBE läuft in Ihrem Netzwerk: Eingaben und Ausgaben verlassen die Box im Normalbetrieb nicht, im Inferenzbetrieb keine Telemetrie, keine Cloud-Calls, kein Logging-Abfluss. Soweit wir im Rahmen eines Care-Vertrags administrativen Zugriff bekommen (Updates, Support, Diagnose), sind wir Auftragsverarbeiter nach Art. 28 DSGVO, ein AVV ist Standard-Vertragsanlage. Für § 203 StGB / Berufsgeheimnis sind wir entsprechend zur Verschwiegenheit verpflichtet (Care-Vertrag § 203 Abs. 3). Kein Drittland-Transfer, keine Schrems-II-Problematik, deutscher Vertragspartner.
Was kostet das?
Ab ~29.900 € (Hardware + Lizenz, System-Kauf), optionales Faststart-Bundle ~8.180 € (Onboarding, Schulung, 12 Mo. Care), oder als Managed-Service ab ~2.490 €/Monat. Care-Pakete (390/850/1.390 €/Monat) und Schulungen separat. Detail im Erstgespräch.
Was ist mit der Pflichtschulung nach EU AI Act Art. 4?
Die Pflicht gilt bereits seit 02.02.2025; ab 02.08.2026 greift die nationale Durchsetzung. Alle KI-nutzenden Unternehmen müssen ihre Mitarbeiter zur KI-Kompetenz schulen. Wir liefern das passende Schulungsbundle (Basis, Intensiv, Jahres-Compliance-Paket) gleich mit aus.
Wie viele Mitarbeiter können daran arbeiten?
Wir unterscheiden zwei Zahlen: (a) Concurrent Chat-User: gleichzeitig wartende Nutzer mit p95 TTFT < 2s. Für KI:KUBE 4 sind das 10–30, für KI:KUBE 6 sind 30–60, für KI:KUBE 8 sind 60–90. (b) Async-Streams: queue-bare Background-Tasks (E-Mail-Triage, Agent-Workflows). Hier zählt Tagesdurchsatz, nicht Latenz: 80+ Streams bei KI:KUBE 4, 150+ bei KI:KUBE 6, 200+ bei KI:KUBE 8. Das sind indikative Werte: die tatsächliche Kapazität hängt stark von der Modellwahl ab. Ein typisches 80-Personen-Unternehmen nutzt beides parallel.
Wo ist KI:KUBE *nicht* die beste Wahl?
Drei Fälle: (1) Wer KI nur sporadisch braucht (wenige Stunden pro Woche, ein Sachbearbeiter mit Cloud-Lizenz), dann ist eine bestehende ChatGPT/Claude-Lizenz wirtschaftlicher als eine eigene Box. (2) Wer Training oder Fine-Tuning großer Foundation-Modelle plant, die DGX Spark ist Inferenz-optimiert, kein Trainings-Cluster (dafür H100/H200 oder Hyperscaler). (3) Wer auf proprietäre Frontier-Features angewiesen ist (z.B. GPT-5o-Tools, Sora-Video, OpenAI-Codex-spezifische Eigenheiten), KI:KUBE läuft mit Open-Weight-Modellen, die decken ~90 % der produktiven Use-Cases ab, aber nicht jedes Cloud-Feature.
Stimmt unsere Performance mit Ihren Lab-Werten überein?
Ja, unter einer Bedingung: gleiche Topologie. Validated Profiles dokumentieren Modell × Engine × Quantisierung × Topologie × Hardware. Wenn Ihre KI:KUBE 4 dieselbe Engine-Version (SGLang X.Y), dasselbe Modell-Profil und dieselbe Knoten-Anzahl fährt wie unser Labor, sind die Tokens-pro-Sekunde-Werte deckungsgleich (±2–3 %). Wir liefern den Inbetriebnahme-Report mit gemessenen Werten gegen das Profil, damit Sie sich das nicht selbst zusammenrechnen müssen. Abweichungen entstehen typischerweise durch andere Netz-Latenz im Rack oder anderes Sampling-Setup, beides reproduzierbar.
Was passiert, wenn die Hardware ausfällt?
Gesetzliche Gewährleistung nach den vertraglichen Bedingungen (B2B), NVIDIA-Herstellergarantie 1 Jahr, erweiterte Hardware-Abdeckung über unsere Care-Pakete. Care-Pakete decken Reaktionszeiten und Vor-Ort-Support ab. Modelle und Konfiguration sind Git-versioniert: Restore (grundsätzlich) in <2h.
Können wir eigene Modelle / RAG aufsetzen?
Ja. Wir liefern eine vorkonfigurierte RAG-Pipeline (Dokumenten-Ingestion, Vektor-Index, Chunking). Eigene Modelle (Open Weights) lassen sich über das Profile-System nachschieben.

Demo anfragen

Sehen Sie KI:KUBE an einem Ihrer eigenen Dokumente.

In 30 Minuten zeigen wir Ihnen die KI:KUBE an einem Dokument aus Ihrem Arbeitsalltag, in der Regel per Bildschirmfreigabe, auf Wunsch vor Ort. Keine Folien-Präsentation, sondern eine echte Live-Inferenz auf der Hardware.

  • Remote oder vor Ort: in der Regel per Screenshare, auf Wunsch reisen wir an.
  • Eigenes Dokument: Vertrag, Schriftsatz, Spezifikation. NDA möglich.
  • Unverbindlich: keine Vorauszahlung, keine Folgeverpflichtung.

Lieber direkt schreiben? info@kikube.eu

Ihre Daten werden auf einem deutschen Server (Hetzner) verarbeitet. Keine Drittlandübermittlung. Löschung auf Anfrage an info@kikube.eu.

Frontier-KI auf eigener Hardware. Souverän, compliant, wirtschaftlich.

Demo anfragen