Modellauswahl

Welches Modell für welchen Job?

Sie denken in Anwendungsfällen, wir übersetzen das in Modell-Konfigurationen. Empfehlungen basieren auf gemessenen Throughput-Werten aus unseren Test-Matrizen.

Anwendungsfälle

Empfehlung nach Aufgabe.

Was der Kunde wirklich braucht, und welches Modell aktuell die beste Antwort ist.

Anwendungsfall	Empfohlenes Modell	Sparks	Warum	Alternative
Allround / Chat	Qwen3.6-35B-A3B-NVFP4	1–4	Throughput-Spitzenreiter im Validated-Set (438 tok/s n=8, gemessen 2026-05-22). Frontier-Qualität bei kleinen active-params, ~2× kleinerer Memory-Footprint als FP8: der Standardvorschlag für 80 % aller Anfragen.	Qwen3.6-35B-A3B-FP8 (offene FP8-Variante, −2.6 %) oder Qwen3.6-27B-FP8 (dense, höhere Single-Antwort-Qualität)
Vertragsanalyse / Legal	Qwen3-235B-A22B-FP8	2	Großer Kontext (262K mit AWQ-Variante): ganzer Vertrag in einem Prompt. Starkes Reasoning auch ohne Reasoning-Mode. Bizdev-validiert.	Qwen3.5-397B-A17B-NVFP4 (mehr Tiefe, langsamer)
Coding / Software-Entwicklung	Qwen3.6-35B-A3B-NVFP4	1–4	Höchster Durchsatz bei IDE-Completion und Code-Review-Bots (438 tok/s n=8). Genug Qualität für Standardaufgaben; bei seltenen Refactor-Spezialaufgaben Hybrid-Strategie.	Qwen3.6-35B-A3B-FP8 (offene FP8-Variante) oder Qwen3.6-27B-FP8 (dense, etwas höhere Single-Qualität)
Deep Reasoning / Analyse	Qwen3.5-397B-A17B-NVFP4	4	Frontier-Reasoning, gemessen 111 tok/s n=8. Für Fälle, in denen Tiefe vor Geschwindigkeit geht.	Nemotron-3-Super-120B-A12B-NVFP4 (135 tok/s n=8, ~285 tok/s bei n=32, steigt mit höherer Parallelität weiter (bis zur Sättigung)) oder GLM-5-AWQ (experimentell)
Agentic / Tool-Use	GLM-4.7-NVFP4	4	Exzellent bei mehrstufigen Aufgaben, sehr gutes Function-Calling. Klassische Wahl wenn der Agent viele Tools koordinieren muss.	Qwen3.6-27B mit aktiviertem tool_call_parser
Bild- / Dokumentenanalyse (multimodal)	Gemma 4 26B-A4B-it-BF16	4	Vision + Audio nativ. 231 tok/s n=8: ein schneller multimodaler Pfad. Mit kleinem aktiven Parameter-Anteil (3.8B) ressourcen-effizient.	Gemma 4 31B-it-BF16 (dense, etwas höhere Genauigkeit)
Maximum-Qualität (koste es, was es wolle)	Nemotron-3-Ultra-550B-A55B-NVFP4	4	Größtes validiertes Modell auf KI:KUBE 4 (550B, 43 tok/s n=8, gemessen 2026-06-06). 512K Kontext validiert, Reasoning pro Anfrage zuschaltbar. Langsam, aber wenn Output-Tiefe das einzige Kriterium ist, ist das die Wahl.	GLM-5-AWQ (744B, experimentell) oder Qwen3.5-397B-A17B-NVFP4 (validated, deutlich schneller)
Helpdesk / Triage / Schnellantworten	Qwen3.6-35B-A3B-NVFP4	1–2	Niedrige Single-Token-Latenz (~80 tok/s n=1), hoher Parallel-Durchsatz (438 tok/s n=8) für viele kurze Anfragen gleichzeitig.	Qwen3.6-35B-A3B-FP8
Multilingual / Übersetzung	Qwen3-235B-A22B-FP8	2	Stark in DE/EN/FR/ES/ZH: im Deutschen in unseren Tests sehr stark.	Gemma 4 31B (gut bei europäischen Sprachen)
Zusammenfassung großer Dokumente	Qwen3-235B-A22B-AWQ	2	262K Kontext-Fenster = ~200 Seiten am Stück. Kein RAG-Chunking nötig für mittlere Dokumentenmengen.	Nemotron-3-Ultra-550B-A55B-NVFP4 (512K Kontext validiert = ~400 Seiten, 4 Sparks, langsamer)

Throughput-Werte sind die jeweils gemessenen n=8-Peaks (8 parallele Requests an SGLang, entspricht ~10–30 Chat-Usern parallel mit p95 TTFT < 2s, siehe Lesehilfe) auf 4× DGX Spark GB10 mit MTP/NEXTN, wo unterstützt. Quelle: Performance-Tabelle auf /ausbaustufen.

Skalierung

Empfehlung nach Team-Größe.

Welche Ausbaustufe für welche Team-Größe sinnvoll ist.

1–5 Power-User

Qwen3.6-35B-A3B-NVFP4 auf KI:KUBE 2

Einzelne Requests schnell, Parallel-Last selten: kleine Stufe genügt.

10–20 Mitarbeiter, gemischte Nutzung

Qwen3.6-35B-A3B-NVFP4 auf KI:KUBE 4

Höherer Parallel-Throughput für gleichzeitige Anfragen. Standardempfehlung.

20–40 Mitarbeiter, intensiv

Qwen3.6-35B-A3B + Qwen3-235B parallel auf KI:KUBE 4

Routing: einfache Fragen → 35B-A3B (schnell), tiefe Fragen → 235B (qualitativ).

40+ Mitarbeiter oder Frontier-Modelle

KI:KUBE 6, oder zweite Box als Hot-Standby

Eine 4-Spark-Box wird zum Bottleneck: Skalieren in Knoten oder Replikation.

80+ Mitarbeiter, mehrere große Modelle dauerhaft parallel

KI:KUBE 8: größere Frontier-Modelle, drei+ Modelle hot-loaded

1 TB Unified Memory: höchste Präzision und Reserve für gemischte Spitzenlast über alle Abteilungen.

Parallelbetrieb

Mehrere Modelle gleichzeitig?

Auf KI:KUBE 4 (512 GB Unified Memory) lässt sich ein großes Modell (z.B. Qwen3-235B) zusammen mit einem schnellen Allround-Modell (z.B. Qwen3.6-35B-A3B) und einem Vision-Modell (z.B. Gemma 4 26B-A4B) gleichzeitig hot-loaded halten, ohne Reload zwischen den Use-Cases (je nach Auslastung).

Für KI:KUBE 2 ist Hot-Loading von zwei Modellen knapp, aber machbar (z.B. Qwen3.6-35B-A3B + Qwen3-235B AWQ). Bei KI:KUBE 6 sind drei bis vier Modelle parallel realistisch, bei KI:KUBE 8 (1 TB Unified Memory) auch die größeren Frontier-Modelle oder mehrere Spezialmodelle gleichzeitig bzw. für mehr parallele Zugriffe.

Welches Modell passt zu Ihrem Use-Case? Im Erstgespräch klären wir das in 20 Minuten.

Erstgespräch vereinbaren