KI:KUBE

Marktanalyse · 19. Juni 2026 · 6 min

„Token Panic“: warum KI plötzlich teuer wird und das Handelsblatt zur eigenen Hardware rät

Der Wechsel von Pauschalen zur nutzungsbasierten Token-Abrechnung macht KI zum unkalkulierbaren Budgetposten: bei Adesso hat sich der Tokenverbrauch fast verhundertfacht. Was die Handelsblatt-Analyse vom 19.06.2026 für den Mittelstand bedeutet, und warum die Schlussfolgerung lokale Modelle auf eigener Hardware lautet.

Am 19. Juni 2026 hat das Handelsblatt unter dem Titel „KI wird plötzlich teuer – ‚Wir haben eine Kostenexplosion gesehen'" beschrieben, was in IT-Abteilungen gerade Realität wird: Anfang Juni stellte Microsoft bei GitHub Copilot von der Pauschale auf nutzungsbasierte Abrechnung um: bezahlt wird pro Token. Die großen Modellanbieter sind diesem Muster reihum gefolgt. Damit werden Token zu einer Ressource, die Unternehmen managen müssen wie Arbeit, Energie und Kapital. Das Analysehaus Citrini Research spricht bereits von „Token Panic“.

Die Zahlen, die jetzt durch die Vorstände gehen

  • Adesso: Der Tokenverbrauch hat sich seit Dezember fast verhundertfacht. Vorstand Benedikt Bonnmann: „Wir haben intern eine Kostenexplosion gesehen. Token sind mittlerweile ein relevanter Budgetposten in sechsstelliger Höhe." Einzelne Nutzergruppen verursachen fünfstellige Monatskosten; der Großteil der Belegschaft liegt bei 500 bis 1.000 € pro Monat.
  • Uber: verbrauchte binnen weniger Monate das KI-Budget für ein ganzes Jahr.
  • KPMG-Umfrage: Nur 26 % der befragten Unternehmen haben einen umfassenden Überblick über ihre KI-Kosten, weitere 50 % zumindest teilweise, 22 % haben keinerlei Transparenz und erfahren die tatsächlichen Ausgaben erst mit der Abrechnung.

Der Mechanismus ist tückisch: Die Preise pro Token sinken zwar, aber die stark gestiegene Nutzung (Stichwort „Agentic Engineering", Systeme wie Claude Code und Codex erledigen ganze Entwicklungsschritte selbstständig) treibt die Summe trotzdem nach oben. Was als Subventionsphase begann, kommt jetzt auf die Rechnung.

Die Schlussfolgerung der befragten Experten: lokale Modelle

Bemerkenswert an der Analyse ist nicht die Kostendiagnose, die kennt jeder, der eine Cloud-Rechnung liest. Bemerkenswert ist, wohin die zitierten Fachleute zeigen. Romano Roth, KI-Chef der Technologieberatung Zühlke, formuliert die neue Nutzerfrage so: „Als Nutzer muss ich mich dann fragen: Ist mir die Anfrage 100 Dollar wert?" Seine Prognose: Die großen Cloud-Modelle werden künftig nur noch für komplexe Anfragen genutzt, für Spezial- und Routineaufgaben kommen kleinere und vor allem lokale Modelle zum Einsatz:

„Um die Kosten im Griff zu behalten, aber auch aus Datenschutzgründen, werden lokale Modelle an Bedeutung gewinnen. Sie laufen direkt auf der eigenen Hardware der Unternehmen: auf Laptops, Smartphones oder im firmeneigenen Rechenzentrum." – Romano Roth, Zühlke

Die Analyse nennt sogar die Modelle: quelloffene Alternativen wie Llama (Meta), Mistral und DeepSeek, „die sich deutlich günstiger betreiben lassen": exakt die Open-Weight-Familien, die wir in der KI:KUBE-Library kuratieren.

Was das für den deutschen Mittelstand heißt

Die Token-Abrechnung verschiebt die Kostenkurve von einer planbaren Pauschale zu einem variablen Posten, der mit der Nutzung mitwächst: also genau dann steigt, wenn KI im Unternehmen erfolgreich wird. Das ist das Gegenteil dessen, was eine Investitionsrechnung braucht. Eine On-Prem-Appliance dreht das um:

  • Bekannte Anschaffung statt offener Token-Rechnung: eine KI:KUBE 4 ab 29.900 € (System-Kauf), danach laufen Modelle, RAG und Coding-Copilot ohne Per-Token-Gebühr.
  • Bekannter Betrieb: ~1.000 € Strom pro Jahr, kalkulierbares Care-Paket: keine Abrechnungs-Überraschung am Monatsende.
  • Nutzung = Wert, nicht = Risiko: Wer die Box hat, kann seine Mitarbeiter KI maximal nutzen lassen, ohne dass jede zusätzliche Anfrage die Rechnung erhöht. Die „Ist mir die Anfrage 100 Dollar wert?"-Frage entfällt strukturell.

Rund um die Token-Wirtschaft entstehen derzeit neue Geschäftsmodelle: Routing-Plattformen wie OpenRouter (Ende Mai 113 Mio. USD Risikokapital), Token-Optimierung bei Coupa und Celonis, kleinere Spezialmodelle von Microsoft und Nvidia. Alle adressieren dasselbe Symptom: Cloud-Token sind teuer geworden. Die KI:KUBE adressiert die Ursache: sie nimmt die Inferenz aus der nutzungsbasierten Abrechnung heraus.

Ehrliche Einordnung

Lokale Inferenz ist nicht für jeden der günstigere Weg. Wer KI nur sporadisch braucht, fährt mit einer Cloud-Lizenz wirtschaftlicher (siehe unsere Token-Budget-Analyse). Der Kipppunkt liegt dort, wo KI vom Experiment zum Dauerbetrieb wird, und genau diesen Übergang beschreibt die Handelsblatt-Analyse für immer mehr Unternehmen als bereits vollzogen.

Quelle: Joachim Hofer, Christof Kerkmann, Nadine Schimroszik, Luisa Bomke, „KI wird plötzlich teuer – ‚Wir haben eine Kostenexplosion gesehen'", Handelsblatt, 19.06.2026 (sinngemäß zitiert; Original beim Handelsblatt). Zahlen: Adesso, KPMG-Umfrage, Citrini Research, Zühlke, wie im Beitrag wiedergegeben.

KI:KUBE im Erstgespräch besprechen: wir nehmen uns 20–30 Minuten.

Erstgespräch vereinbaren