Produkt · Software
Open-Source-Stack, vorkonfiguriert und versioniert.
Keine proprietäre Black-Box im Inferenzpfad. Der Inferenz-Stack ist quelloffen und nachvollziehbar konfiguriert.
Stack
Schicht für Schicht
| Schicht | Tool | Anmerkung |
|---|---|---|
| Orchestrierung | K3s (leichtgewichtiger Kubernetes) | Standard-Werkzeuge, keine Bastellösung. |
| Inference-Engine | SGLang | FP8/NVFP4-Quantisierung, MoE-Routing, Continuous Batching. |
| Modell-Profile | Validated Profiles (YAML, Git-versioniert) | Modell × Engine × Topologie × Quantisierung: getestet, dokumentiert. |
| User-Frontend | Open WebUI · Hermes WebUI | ChatGPT-ähnliche Oberfläche im Intranet, SSO via OIDC/SAML, wahlweise Open WebUI oder Hermes WebUI. |
| Agenten-Interface | Hermes Agent (E-Mail · Desktop) | Ein lokaler Agent, zwei Zugänge: per E-Mail erreichbar (Triage eingehender Mails und persönliche Assistenz, die Mitarbeiter mit Aufgaben beauftragen: Antwort per Reply, ohne Client-Installation) und als native Hermes-Desktop-App, die sich über den OpenAI-kompatiblen Endpoint mit dem Cluster verbindet. |
| RAG-Pipeline | Eigene Dokumente, Vektor-Index, Chunking | Standardmäßig pro Workspace, Multi-Tenant fähig. |
| API | OpenAI-kompatibler Endpoint | Continue, Cursor, Tabby, Aider, eigene Apps lassen sich anbinden. |
| Monitoring | Grafana, Prometheus, Loki | Auslastung, Token-Throughput, Latenz, Error-Rate. |
| Updates | GitOps-Reconciler (in-cluster Operator) | Update-Reviews per Pull-Request, Roll-Back jederzeit. |
Hermes Agent · in Aktion
E-Mail rein. Lokale KI antwortet. Kein Client-Setup beim Empfänger.
Hermes ist per E-Mail erreichbar und kann zwei Dinge: eingehende Mails triagieren (Standardanfragen beantworten, komplexe Fälle eskalieren) und als persönliche Assistenz Aufträge entgegennehmen: schreiben Sie Hermes an, delegieren Sie Recherche, Zusammenfassung oder Entwurf, die Antwort kommt mit Quellenauszügen aus Ihrem RAG-Index per Reply zurück. Auch eingebettet in n8n-Workflows.
Demo-Recording in Vorbereitung
2-Minuten-Walkthrough: Mail mit PDF-Anhang → Hermes-Pipeline → RAG-Antwort
Eingang
Mail an hermes@firma.local mit PDF, Word, oder reinem Text.
Verarbeitung
Hermes extrahiert Anhänge, kontextualisiert via RAG, ruft das lokale Modell, komplett im Netz.
Antwort
Reply-Mail mit Antwort, Quellenangaben aus Ihrem Index, optional als strukturiertes JSON.
Integration via n8n oder direktem SMTP/IMAP, Beispiel-Workflows im Care-Paket.
Betrieb
Getestet, versioniert, migrierbar.
Drei Eigenschaften, die einen Produktivbetrieb von einem Bastelcluster unterscheiden.
Modelle, die wirklich laufen
Für jedes freigegebene Modell gibt es ein Validated Profile: eine YAML-Datei mit Engine-Version, Quantisierungs-Parametern, Topologie (TP/PP/EP), Sampling-Presets und Performance-Daten. Das Profil passt, weil wir es vorher gemessen haben: keine wochenlange Selbst-Optimierung.
Katalog ansehen →Versioniert wie Software
Jede Konfigurationsänderung (neues Modell, geändertes Sampling, RAG-Tuning) ist ein Pull-Request im internen Git. Sie sehen, wer wann was warum geändert hat. Bei Care-Paketen liefern wir monatlich Update-Vorschläge mit Changelog und Risiko-Einordnung; freigegeben wird per Knopfdruck (oder nicht).
Kein Lock-in
Die Modelle sind Open-Weight (Hugging Face), die Engine (SGLang) ist Open Source, die RAG-Pipeline arbeitet auf Standardformaten (Markdown, PDF, Office). Wenn Sie KI:KUBE morgen abschalten, lassen sich Daten und Konfiguration migrieren: offene Formate ohne Hersteller-Lock-in im Inferenzpfad.
Sehen Sie KI:KUBE an einem Ihrer eigenen Dokumente.
Demo anfragen