Validated Profiles
Benchmark-Daten: gemessen, dokumentiert, reproduzierbar.
Wir veröffentlichen Tokens-pro-Sekunde-Messungen für jedes Validated Profile bei drei Concurrency-Stufen (n=1 / n=4 / n=8). Methode, Hardware, Engine-Version und Quantisierungs-Backend sind pro Zeile dokumentiert.
Hinweis: Das vollständige Dashboard mit Live-Daten und Pre-Deploy-Quality-Gate-Reports ist in Vorbereitung. Die folgende Tabelle zeigt eine kuratierte Auswahl aus dem Test-Lauf vom Mai/Juni 2026.
| Modell | Topologie | n=1 | n=4 | n=8 | Gate |
|---|---|---|---|---|---|
| Qwen3.6-35B-A3B-NVFP4 | 4× DGX Spark · TP=4 · EP=1 | 80 | 285 | 438 | PASS |
| Qwen3.6-35B-A3B-FP8 | 4× DGX Spark · TP=4 · EP=1 | 77 | 280 | 426 | PASS |
| Qwen3-235B-A22B-FP8 | 4× DGX Spark · TP=4 · EP=1 | 31 | 105 | 188 | PASS |
| Nemotron-3-Super-120B-A12B-NVFP4 | 4× DGX Spark · TP=4 · EP=1 | 29 | 89 | 135 | PASS |
| Nemotron-3-Ultra-550B-A55B-NVFP4 | 4× DGX Spark · TP=4 · EP=4 | 10 | 29 | 43 | PASS |
| DeepSeek-R1-distill 70B | 4× DGX Spark · TP=4 | 28 | 98 | 172 | PASS |
| Llama-3.3 70B-Instruct | 2× DGX Spark · TP=2 | 24 | 84 | 142 | PASS |
Werte in Tokens/Sekunde (Output). Methode: SGLang Continuous Batching, Eingabelänge 512 / Ausgabelänge 512, Warm-Run nach 50 Iter Warm-up. Vollständige Test-Konfiguration pro Profil auf Anfrage.
Public Dashboard: Roadmap
- ▸ Suche & Filter nach Modell / Topologie / Quantisierung
- ▸ Historische Gate-Reports (Vorher/Nachher pro Update)
- ▸ Pareto-Front: tok/s vs. Speicherbedarf pro Topologie
- ▸ Reproduktions-Anker (matrix.yaml + Image-Tag pro Zeile)
Aktueller Stand der Datenpipeline: matrixtest-Job-Runner schreibt MATRIX_SUMMARY-Indizes nach NFS · Public-Surface in Arbeit.