Welches Sprachmodell für welchen Job? Unsere Empfehlungs-Matrix

Die ehrliche Antwort auf "welches Sprachmodell ist das beste?" lautet: für was? Open-Weight-Modelle haben sich in den letzten zwei Jahren auf eine differenzierte Stärken-Verteilung eingependelt: kein Modell gewinnt überall.

Unsere Empfehlung pro Use-Case (Stand 06/2026)

Use Case	Empfohlenes Modell	Alternative	Begründung
Allround / Chat	Qwen3-235B-A22B-FP8	Llama-3.3-70B	Bestes Verhältnis aus Qualität, Geschwindigkeit, Multilingual
Schritt-für-Schritt-Reasoning	Qwen3.5-397B-A17B-NVFP4	DeepSeek-R1-Distill	Lange Begründungs-Ketten, starke Mathematik / Logik
Coding-Copilot	Qwen3-Coder-480B-A35B	DeepSeek-V3-Coder	Tool-Use, Mehrdatei-Refactoring, große Kontextlängen
Multilingual (DE/EN/FR/IT)	Mistral-Large-2411	Qwen3-235B	Französisch und Italienisch idiomatischer als Qwen, klarer als Llama
Strukturierte Extraktion (JSON)	Llama-3.3-70B	Qwen3-72B	Hohe Format-Treue, weniger "Halluzinations-Felder"
Kreativ / Marketing	Qwen3-235B (kreativ-Preset)	Mistral-Large	Mit höherem Temperature-Setting variantenreich, ohne Banalität

Modell-Wechsel im laufenden Betrieb

Auf einer KI:KUBE 4 lassen sich zwei Modelle parallel hot-loaded halten: typisch eine Allround-Kombi (Qwen3-235B) plus ein spezialisiertes Modell (z.B. Qwen3-Coder). Die Anwendung wählt per Routing-Header, ohne dass der Anwender einen Modell-Wechsel erlebt. Auf KI:KUBE 6 sind drei parallele Modelle realistisch.

Modelle, die selten gebraucht werden (z.B. ein Reasoning-Modell für komplexe Mathematik), könnte man "kalt" auf einer Disk halten und bei Bedarf in ~10 Minuten (je nach Disk und je nach Model) hochziehen: das ist effizienter als Cluster-Reserven dauerhaft zu binden.

Was wir nicht in den Katalog aufnehmen

Sehr kleine Modelle (<7B): auf KI:KUBE-Hardware verschwendete Kapazität; wer ein 7B-Modell braucht, kann das auf einem Laptop laufen lassen.
Beta-Modelle ohne Stabilitäts-Reife: wir warten typisch zwei bis vier Wochen ab Release, bevor wir ein Profil validieren.
Modelle mit unklaren Lizenzbedingungen: alle Profile, die wir freigeben, sind Open-Weight mit prüffähiger kommerzieller Nutzung.

Der Sprachmodell-Katalog zeigt eine reduzierte öffentliche Übersicht; die vollständigen Validated Profiles (Engine-Konfiguration, Sampling-Parameter, gemessene Performance) sind Bestandteil der Lieferung. Wer eine Pre-Sales-Einschätzung zu einem konkreten Modell braucht, fragt am besten direkt.