Modellauswahl
Welches Modell für welchen Job?
Sie denken in Anwendungsfällen, wir übersetzen das in Modell-Konfigurationen. Empfehlungen basieren auf gemessenen Throughput-Werten aus unseren Test-Matrizen.
Anwendungsfälle
Empfehlung nach Aufgabe.
Was der Kunde wirklich braucht, und welches Modell aktuell die beste Antwort ist.
| Anwendungsfall | Empfohlenes Modell | Sparks | Warum | Alternative |
|---|---|---|---|---|
| Allround / Chat | Qwen3.6-35B-A3B-NVFP4 | 1–4 | Throughput-Spitzenreiter im Validated-Set (438 tok/s n=8, gemessen 2026-05-22). Frontier-Qualität bei kleinen active-params, ~2× kleinerer Memory-Footprint als FP8: der Standardvorschlag für 80 % aller Anfragen. | Qwen3.6-35B-A3B-FP8 (offene FP8-Variante, −2.6 %) oder Qwen3.6-27B-FP8 (dense, höhere Single-Antwort-Qualität) |
| Vertragsanalyse / Legal | Qwen3-235B-A22B-FP8 | 2 | Großer Kontext (262K mit AWQ-Variante): ganzer Vertrag in einem Prompt. Starkes Reasoning auch ohne Reasoning-Mode. Bizdev-validiert. | Qwen3.5-397B-A17B-NVFP4 (mehr Tiefe, langsamer) |
| Coding / Software-Entwicklung | Qwen3.6-35B-A3B-NVFP4 | 1–4 | Höchster Durchsatz bei IDE-Completion und Code-Review-Bots (438 tok/s n=8). Genug Qualität für Standardaufgaben; bei seltenen Refactor-Spezialaufgaben Hybrid-Strategie. | Qwen3.6-35B-A3B-FP8 (offene FP8-Variante) oder Qwen3.6-27B-FP8 (dense, etwas höhere Single-Qualität) |
| Deep Reasoning / Analyse | Qwen3.5-397B-A17B-NVFP4 | 4 | Frontier-Reasoning, gemessen 111 tok/s n=8. Für Fälle, in denen Tiefe vor Geschwindigkeit geht. | Nemotron-3-Super-120B-A12B-NVFP4 (135 tok/s n=8, ~285 tok/s bei n=32, steigt mit höherer Parallelität weiter (bis zur Sättigung)) oder GLM-5-AWQ (experimentell) |
| Agentic / Tool-Use | GLM-4.7-NVFP4 | 4 | Exzellent bei mehrstufigen Aufgaben, sehr gutes Function-Calling. Klassische Wahl wenn der Agent viele Tools koordinieren muss. | Qwen3.6-27B mit aktiviertem tool_call_parser |
| Bild- / Dokumentenanalyse (multimodal) | Gemma 4 26B-A4B-it-BF16 | 4 | Vision + Audio nativ. 231 tok/s n=8: ein schneller multimodaler Pfad. Mit kleinem aktiven Parameter-Anteil (3.8B) ressourcen-effizient. | Gemma 4 31B-it-BF16 (dense, etwas höhere Genauigkeit) |
| Maximum-Qualität (koste es, was es wolle) | Nemotron-3-Ultra-550B-A55B-NVFP4 | 4 | Größtes validiertes Modell auf KI:KUBE 4 (550B, 43 tok/s n=8, gemessen 2026-06-06). 512K Kontext validiert, Reasoning pro Anfrage zuschaltbar. Langsam, aber wenn Output-Tiefe das einzige Kriterium ist, ist das die Wahl. | GLM-5-AWQ (744B, experimentell) oder Qwen3.5-397B-A17B-NVFP4 (validated, deutlich schneller) |
| Helpdesk / Triage / Schnellantworten | Qwen3.6-35B-A3B-NVFP4 | 1–2 | Niedrige Single-Token-Latenz (~80 tok/s n=1), hoher Parallel-Durchsatz (438 tok/s n=8) für viele kurze Anfragen gleichzeitig. | Qwen3.6-35B-A3B-FP8 |
| Multilingual / Übersetzung | Qwen3-235B-A22B-FP8 | 2 | Stark in DE/EN/FR/ES/ZH: im Deutschen in unseren Tests sehr stark. | Gemma 4 31B (gut bei europäischen Sprachen) |
| Zusammenfassung großer Dokumente | Qwen3-235B-A22B-AWQ | 2 | 262K Kontext-Fenster = ~200 Seiten am Stück. Kein RAG-Chunking nötig für mittlere Dokumentenmengen. | Nemotron-3-Ultra-550B-A55B-NVFP4 (512K Kontext validiert = ~400 Seiten, 4 Sparks, langsamer) |
Throughput-Werte sind die jeweils gemessenen n=8-Peaks (8 parallele Requests an SGLang, entspricht ~10–30 Chat-Usern parallel mit p95 TTFT < 2s, siehe Lesehilfe) auf 4× DGX Spark GB10 mit MTP/NEXTN, wo unterstützt. Quelle: Performance-Tabelle auf /ausbaustufen.
Skalierung
Empfehlung nach Team-Größe.
Welche Ausbaustufe für welche Team-Größe sinnvoll ist.
Qwen3.6-35B-A3B-NVFP4 auf KI:KUBE 2
Einzelne Requests schnell, Parallel-Last selten: kleine Stufe genügt.
Qwen3.6-35B-A3B-NVFP4 auf KI:KUBE 4
Höherer Parallel-Throughput für gleichzeitige Anfragen. Standardempfehlung.
Qwen3.6-35B-A3B + Qwen3-235B parallel auf KI:KUBE 4
Routing: einfache Fragen → 35B-A3B (schnell), tiefe Fragen → 235B (qualitativ).
KI:KUBE 6, oder zweite Box als Hot-Standby
Eine 4-Spark-Box wird zum Bottleneck: Skalieren in Knoten oder Replikation.
KI:KUBE 8: größere Frontier-Modelle, drei+ Modelle hot-loaded
1 TB Unified Memory: höchste Präzision und Reserve für gemischte Spitzenlast über alle Abteilungen.
Parallelbetrieb
Mehrere Modelle gleichzeitig?
Auf KI:KUBE 4 (512 GB Unified Memory) lässt sich ein großes Modell (z.B. Qwen3-235B) zusammen mit einem schnellen Allround-Modell (z.B. Qwen3.6-35B-A3B) und einem Vision-Modell (z.B. Gemma 4 26B-A4B) gleichzeitig hot-loaded halten, ohne Reload zwischen den Use-Cases (je nach Auslastung).
Für KI:KUBE 2 ist Hot-Loading von zwei Modellen knapp, aber machbar (z.B. Qwen3.6-35B-A3B + Qwen3-235B AWQ). Bei KI:KUBE 6 sind drei bis vier Modelle parallel realistisch, bei KI:KUBE 8 (1 TB Unified Memory) auch die größeren Frontier-Modelle oder mehrere Spezialmodelle gleichzeitig bzw. für mehr parallele Zugriffe.
Welches Modell passt zu Ihrem Use-Case? Im Erstgespräch klären wir das in 20 Minuten.
Erstgespräch vereinbaren