Welches lokale KI-Modell für Ihr Unternehmen? Warum Modellauswahl strategisch ist

Im Mai 2026 hat ein Beitrag im Handelsblatt einen Punkt scharf gemacht, den die Tech-Szene seit Monaten kennt, aber nicht ausspricht: Wer ein Modell lokal betreibt, hostet die Software, aber nicht die Prägung. Stephan Scheuer hat Qwen 3.5 auf einem Apple-M-Chip getestet und festgestellt: Bei Themen wie Tiananmen 1989 weicht das Modell aus oder reproduziert KP-konforme Formulierungen. Lokal, offline, ohne jede Cloud-Verbindung, und trotzdem gefärbt.

Das ist kein Bug. Das ist die Quintessenz dessen, was wir Modell-Prägung nennen: Trainingsdaten, RLHF-Feedback, Sicherheits-Tuning. Alles Entscheidungen, die der Hersteller getroffen hat, bevor das Modell auf Ihrer Hardware ankam.

Warum das ein Verkaufsargument für lokale KI ist, und nicht dagegen

Die naheliegende Reaktion lautet: "Wenn lokale Modelle auch gefärbt sind, kann ich auch in der Cloud bleiben." Das übersieht den entscheidenden Unterschied: Im Cloud-Modus haben Sie keine Wahl: der Anbieter wechselt das Modell, ohne Sie zu fragen. Im lokalen Modus wählen Sie das Modell aus, validieren es gegen Ihre Use Cases und bleiben darauf, bis Sie selbst entscheiden, ein anderes zu fahren. Modellauswahl wird damit zur strategischen Entscheidung, vergleichbar mit der Auswahl einer Datenbank oder eines Office-Suite-Vendors.

Welche Modelle wir kuratieren, und nach welchen Kriterien

Wir testen jedes Modell, bevor wir es in unseren Validated-Profile-Katalog aufnehmen, gegen vier Achsen:

Performance: Tokens/Sekunde, Time-to-First-Token, Memory-Footprint auf KI:KUBE-Hardware. Pflicht.
Sprachqualität: Idiomatik in Deutsch, Englisch, Französisch, Italienisch: keine "Translation-Style"-Outputs.
Faktentreue: Wir lassen das Modell auf einem Standard-Set heikler Themen antworten (politische Geschichte, Wettbewerbsrecht, deutsche Gerichtsbarkeit, EU-Compliance) und prüfen Vollständigkeit, Ausweich-Verhalten und ideologische Färbung.
Lizenz und Herkunft: Open-Weight mit kommerziell prüffähiger Lizenz. Trainings-Korpus-Herkunft, soweit dokumentiert.

Worauf wir hinweisen, wenn ein Modell empfohlen wird

Beispielhaft, in Stichworten:

Modell	Stärke	Hinweis
Qwen3-235B-A22B	Allround, Multilingual, exzellente Geschwindigkeit	CN-Herkunft: bei politisch-historischen Themen Ausweichverhalten dokumentiert.
Llama 3.3 / 4.x	Strukturierte Extraktion, JSON-Treue, US-Idiomatik	US-Herkunft: konservatives Sicherheits-Tuning, lehnt manche zulässigen Anfragen ab.
Mistral Large 24xx	Französisch / Italienisch / Deutsch idiomatisch, neutrale Färbung	EU-Herkunft: in Coding leicht hinter Qwen-Coder zurück.
DeepSeek V3 / R1	Reasoning, Mathematik, Coding	CN-Herkunft: ähnliches Ausweichmuster wie Qwen bei sensiblen Themen.
GPT-OSS	"Westlicher" Default ohne CN-Färbung	US-Herkunft, Open-Weights: Qualität liegt unter Qwen3-235B, aber stabil und unkontrovers.

Wie eine Empfehlung zu Ihrer Branche aussieht

Eine deutsche Kanzlei mit Schwerpunkt Wirtschaftsrecht braucht andere Modell-Eigenschaften als ein Software-Haus mit Schwerpunkt Cloud-Migration. Wir kombinieren typisch zwei bis drei Modelle hot-loaded auf einer KI:KUBE 4: eines als Allround, eines spezialisiert (z.B. Coding oder Multilingual), bei Bedarf ein Reasoning-Modell für Sonderaufgaben. Der öffentliche Sprachmodell-Katalog zeigt einen Auszug; die vollständige Validated-Profiles-Library ist Bestandteil der Lieferung.

Was eine seriöse Modellauswahl nicht ist

"Wir nehmen das Modell, das in dem aktuellen Benchmark vorne liegt." Benchmarks sind ein Ausschnitt, und werden gezielt optimiert. Die Praxis-Validierung muss hinter dem Benchmark-Marketing stehen.
"Wir nehmen das größte Modell, das auf die Hardware passt." Größere Modelle sind nicht automatisch besser: die Aktivierungs-Strategie (MoE), das Quant-Format (FP8 / NVFP4) und die Inference-Engine sind oft wichtiger als die Parameteranzahl.
"Wir lassen das Modell vom Anbieter auswählen." Ein Lieferant, der nur ein Modell verkauft, hat einen Anreiz, dieses Modell zu empfehlen, unabhängig davon, ob es zu Ihren Use Cases passt.

Bezug: Stephan Scheuer, "Das kurze Fenster der KI-Freiheit", Handelsblatt, 09.05.2026 (Test mit Qwen 3.5 lokal auf Apple M-Chip, dokumentierte Selbstzensur bei Tiananmen 1989).