KI:KUBE

Produkt · Software

Open-Source-Stack, vorkonfiguriert und versioniert.

Keine proprietäre Black-Box im Inferenzpfad. Der Inferenz-Stack ist quelloffen und nachvollziehbar konfiguriert.

Stack

Schicht für Schicht

Schicht Tool Anmerkung
Orchestrierung K3s (leichtgewichtiger Kubernetes) Standard-Werkzeuge, keine Bastellösung.
Inference-Engine SGLang FP8/NVFP4-Quantisierung, MoE-Routing, Continuous Batching.
Modell-Profile Validated Profiles (YAML, Git-versioniert) Modell × Engine × Topologie × Quantisierung: getestet, dokumentiert.
User-Frontend Open WebUI · Hermes WebUI ChatGPT-ähnliche Oberfläche im Intranet, SSO via OIDC/SAML, wahlweise Open WebUI oder Hermes WebUI.
Agenten-Interface Hermes Agent (E-Mail · Desktop) Ein lokaler Agent, zwei Zugänge: per E-Mail erreichbar (Triage eingehender Mails und persönliche Assistenz, die Mitarbeiter mit Aufgaben beauftragen: Antwort per Reply, ohne Client-Installation) und als native Hermes-Desktop-App, die sich über den OpenAI-kompatiblen Endpoint mit dem Cluster verbindet.
RAG-Pipeline Eigene Dokumente, Vektor-Index, Chunking Standardmäßig pro Workspace, Multi-Tenant fähig.
API OpenAI-kompatibler Endpoint Continue, Cursor, Tabby, Aider, eigene Apps lassen sich anbinden.
Monitoring Grafana, Prometheus, Loki Auslastung, Token-Throughput, Latenz, Error-Rate.
Updates GitOps-Reconciler (in-cluster Operator) Update-Reviews per Pull-Request, Roll-Back jederzeit.

Hermes Agent · in Aktion

E-Mail rein. Lokale KI antwortet. Kein Client-Setup beim Empfänger.

Hermes ist per E-Mail erreichbar und kann zwei Dinge: eingehende Mails triagieren (Standardanfragen beantworten, komplexe Fälle eskalieren) und als persönliche Assistenz Aufträge entgegennehmen: schreiben Sie Hermes an, delegieren Sie Recherche, Zusammenfassung oder Entwurf, die Antwort kommt mit Quellenauszügen aus Ihrem RAG-Index per Reply zurück. Auch eingebettet in n8n-Workflows.

Demo-Recording in Vorbereitung

2-Minuten-Walkthrough: Mail mit PDF-Anhang → Hermes-Pipeline → RAG-Antwort

Eingang

Mail an hermes@firma.local mit PDF, Word, oder reinem Text.

Verarbeitung

Hermes extrahiert Anhänge, kontextualisiert via RAG, ruft das lokale Modell, komplett im Netz.

Antwort

Reply-Mail mit Antwort, Quellenangaben aus Ihrem Index, optional als strukturiertes JSON.

Integration via n8n oder direktem SMTP/IMAP, Beispiel-Workflows im Care-Paket.

Betrieb

Getestet, versioniert, migrierbar.

Drei Eigenschaften, die einen Produktivbetrieb von einem Bastelcluster unterscheiden.

Modelle, die wirklich laufen

Für jedes freigegebene Modell gibt es ein Validated Profile: eine YAML-Datei mit Engine-Version, Quantisierungs-Parametern, Topologie (TP/PP/EP), Sampling-Presets und Performance-Daten. Das Profil passt, weil wir es vorher gemessen haben: keine wochenlange Selbst-Optimierung.

Katalog ansehen →

Versioniert wie Software

Jede Konfigurationsänderung (neues Modell, geändertes Sampling, RAG-Tuning) ist ein Pull-Request im internen Git. Sie sehen, wer wann was warum geändert hat. Bei Care-Paketen liefern wir monatlich Update-Vorschläge mit Changelog und Risiko-Einordnung; freigegeben wird per Knopfdruck (oder nicht).

Kein Lock-in

Die Modelle sind Open-Weight (Hugging Face), die Engine (SGLang) ist Open Source, die RAG-Pipeline arbeitet auf Standardformaten (Markdown, PDF, Office). Wenn Sie KI:KUBE morgen abschalten, lassen sich Daten und Konfiguration migrieren: offene Formate ohne Hersteller-Lock-in im Inferenzpfad.

Sehen Sie KI:KUBE an einem Ihrer eigenen Dokumente.

Demo anfragen