KI:KUBE

Branche · Software-Häuser

Coding-Copilot, der Ihren Quellcode nicht weitergibt.

GitHub Copilot, Cursor und Codeium senden jede Anfrage an US-Cloud-Modelle. Für IP-sensitive Codebasen ist das untragbar. Ab Juni 2026 wird es zusätzlich teuer: Microsoft hat angekündigt, Copilot-Multiplikatoren für Claude Opus auf das 9-fache zu heben. KI:KUBE läuft im eigenen Netz, auf gemessenen Throughput-Champions wie Qwen3.6-35B-A3B-NVFP4 (438 tok/s n=8) oder dense Qwen3.6-27B (252 tok/s n=8), ohne Multiplikator und ohne Outbound-Verbindung.

Ausgangslage

Das Problem, verschärft ab Juni 2026

Cloud-Coding-Tools schicken Code-Kontext (oft inklusive Nachbardateien, Kommentaren, Geheimnissen) an externe Modelle. Vertraglich werden 'no training'-Klauseln zugesagt, überprüfbar ist das nicht. Microsoft hebt zudem die GitHub-Copilot-Multiplikatoren für Claude Opus 4.6 von 3 auf 27 und für Sonnet 4.6 von 1 auf 9: Kontingente sind ab Juni 9× schneller verbraucht. Nadella begründet das öffentlich damit, dass jetzt 'die eigentlichen Kosten' weitergereicht würden. Bei Kunden-Code, regulierten Branchen (Medizin, Automotive, Finanz) oder eigenen Algorithmen ist Cloud-Coding damit doppelt fragwürdig: rechtlich untragbar und wirtschaftlich nicht mehr planbar.

Use Cases

Drei typische Anwendungen

Konkret, mit messbarem Effekt: keine Demo-Beispiele, sondern Routinen aus dem Alltag.

01

IDE-Integration (Continue, Cursor, Tabby, Aider)

OpenAI-kompatibler Endpoint im LAN. Continue, Roo Code, Cline und ähnliche IDE-Plugins lassen sich direkt anbinden: kein Cloud-Sprung.

02

Code-Review-Bot im CI

Jeder PR bekommt automatisch Review-Kommentare. Stilfragen, offensichtliche Bugs, Test-Lücken werden vorgeschlagen, der Reviewer behält die Entscheidung.

03

Dokumentations-Generator

Aus Code automatisch Markdown-Dokumentation, API-Referenzen, Architektur-Übersichten, versioniert mit dem Repo.

Recht & Praxis

IP-Schutz auch ohne juristische Krücken

Der wirksamste Schutz vor 'wir trainieren auf Ihren Daten' ist, die Daten gar nicht erst aus dem Haus zu lassen. KI:KUBE realisiert das technisch: im Inferenzbetrieb keine Outbound-Verbindung zu OpenAI, Anthropic, Google, GitHub. Ihre Codebasis bleibt Ihre Codebasis.

Preis-Indikation

Ab 29.900 € (System-Kauf-Variante reicht hier oft). Bei 30 Devs entspricht das einem Jahresumsatz an GitHub-Copilot-Lizenzen.

Volle Preisübersicht →

FAQ

Software-Häuser: Häufige Fragen

Welche Modelle sind für Coding empfohlen?
Validierte Throughput-Champions: Qwen3.6-35B-A3B-NVFP4 (RedHatAI-Quant, 438 tok/s n=8) als Sieger für hohe parallele Last, Qwen3.6-27B-FP8 (252 tok/s n=8) als dense Variante mit etwas höherer Single-Antwort-Qualität. Die offene FP8-Variante von 35B-A3B (426 tok/s n=8) bleibt verfügbar. 35B-A3B-NVFP4 gemessen 2026-05-22, 35B-A3B-FP8 2026-05-21, 27B 2026-05-10, alle auf 4× DGX Spark. Spezielle Coder-Modelle (Qwen3-Coder, DeepSeek-V3-Coder) sind auf der Roadmap.
Funktioniert das mit unserem Self-Hosted GitLab?
Ja: KI:KUBE bietet einen OpenAI-kompatiblen API-Endpoint. GitLab Duo Self-Hosted-Modelle, Webhooks für PR-Reviews, oder ein einfacher Bot über die GitLab-API lassen sich daran anbinden.
Wie viele Devs kann eine Box bedienen?
KI:KUBE 4 bedient bei Coding-Workloads (kurze, häufige Anfragen) typisch 10–30 Devs parallel im IDE und zusätzlich 80+ Async-Tasks (PR-Reviews, CI-Bots, Commit-Messages). Mit KI:KUBE 6 entsprechend 30–60 Devs parallel + 150+ Async. Indikative Werte, stark modellabhängig.

Live-Demo an Ihrem eigenen Dokument, remote oder auf Wunsch vor Ort.

Termin anfragen