Warum deutsche Unternehmen KI fast nur über US-APIs nutzen

Wenn man dem Eindruck der Fachpresse folgt, läuft Deutschland im KI-Zeitalter mit. ChatGPT in Kanzleien, Copilot in Software-Häusern, Claude in Steuerberatungen: überall produktive Nutzung. Schaut man genauer hin, fällt aber auf: Beinahe jede einzelne dieser Anwendungen geht durch ein US-Cloud-Konto.

Laut Bitkom-KI-Studienbericht 2026 (Befragung von rund 600 Unternehmen) nutzen inzwischen 41 % der deutschen Unternehmen KI aktiv: die große Mehrheit davon über externe, überwiegend US-basierte Schnittstellen (OpenAI API, Anthropic API, Google Vertex, Azure OpenAI); eigene Inferenz-Hardware betreibt bislang nur eine kleine Minderheit.

Die strukturellen Gründe

Die offensichtliche Erklärung, "lokale Hardware ist zu teuer", greift zu kurz. Vier Gründe spielen eine größere Rolle:

1. Die Auftrennung kommt zu spät

In den meisten Häusern entsteht KI-Nutzung im Bottom-up-Modus: Mitarbeiter nutzen ChatGPT, später folgt eine Team-Lizenz, später ein API-Account. Der Punkt, an dem jemand strukturell fragt "ist das eigentlich rechtmäßig, was wir hier mit Mandantendaten tun?", wird oft nie erreicht, bis ein Vorfall, ein Audit oder eine Versicherungsprüfung das Thema auf den Tisch zwingt.

2. Die Cloud-Logik ist eingespielt

Die IT-Strategien der letzten zehn Jahre haben Cloud-First als Default etabliert. Dass eine produktive KI-Anwendung wieder Hardware im Haus erfordert, fühlt sich für viele IT-Leitungen wie ein Rückschritt an, bis man die DSGVO-Lage und § 203 mit dem Compliance-Beauftragten durchspricht.

3. Wirtschaftlichkeit wird selten gerechnet

Cloud-KI-Kosten erscheinen monatlich und sind klein pro Sitz; sie addieren sich aber. Die wenigsten Unternehmen führen einen sauberen TCO-Vergleich; die meisten merken erst nach 18 Monaten, dass die jährlichen API-Kosten den Anschaffungspreis einer Inferenz-Box deutlich überschritten haben.

4. Es gab keine schlüsselfertige Alternative

Wer einen GPU-Cluster selbst aufsetzt, braucht ein Engineering-Team. Wer auf einen klassischen Hardware-Lieferanten geht, bekommt Komponenten, keine Lösung. Eine Appliance, die "Strom + LAN → läuft" liefert, ist erst seit 2025/26 in nennenswertem Umfang am Markt, KI:KUBE ist Teil dieser Welle.

Was sich gerade ändert

Drei Faktoren beschleunigen die Verschiebung in Richtung lokale Inferenz:

Cloud-Preise steigen jährlich: die "lock-in"-These wird wirksam, sobald die Kostenschere wirklich aufgeht.
EU AI Act und DSGVO-Praxis kommen in den Audit-Routinen an: jeder Wirtschaftsprüfer fragt 2026 routinemäßig nach KI-Einsatz und Compliance-Nachweisen.
Open-Weight-Modelle haben Cloud-Niveau erreicht: Qwen3, DeepSeek, Llama 3.x liegen in vielen praxisrelevanten Benchmarks nahe an GPT-4 und Claude.

Die Frage 2026 ist nicht mehr "Cloud-KI oder gar keine KI". Sie ist "Cloud-KI für unkritische Aufgaben oder lokale KI für die kritischen 80 %?", und genau da setzt die KI:KUBE an.

Quelle: Bitkom-KI-Studienbericht 2026 (sinngemäß zitiert; vollständige Studie über bitkom.org).