Ist KI am Limit? Warum der "Plateau"-Mythos von 2023 KMU teuer zu stehen kommt

KI- und Digital-Experte bei DigiRift

Im Spätherbst 2023 sitzt der Geschäftsführer eines mittelständischen Maschinenbauers in seinem Büro und liest die Schlagzeilen. GPT-4 ist seit Monaten draußen, und die Fachpresse beginnt zu zweifeln: Sei die KI nicht längst am Plateau? Drohe nicht eine "Data Wall", weil die Trainingsdaten ausgehen? Er trifft eine Entscheidung, die ihm vernünftig erscheint. Er wartet ab. Kein Budget für KI-Projekte, keine Pilotierung, kein internes Team. Man könne ja später einsteigen, wenn sich die Technologie beruhigt habe.
Zweieinhalb Jahre später ist diese Entscheidung eine der teuersten seiner Laufbahn. Denn die Frage "ist KI am Limit" wurde im Sprung von 2023 auf 2024 nicht mit einem Plateau beantwortet, sondern mit einer Beschleunigung, die selbst optimistische Beobachter überrascht hat. Der Trend setzt sich mit neueren Modellen fort, wie die später folgenden, herstellernahen Werte zeigen. Wer damals abgewartet hat, steht heute nicht vor einer beruhigten Technologie, sondern vor einem Rückstand, der sich nur noch schwer aufholen lässt.
Ist KI am Limit? Die Daten sagen klar: nein
Nein, KI ist nicht am Limit, und die Benchmark-Evidenz seit 2023 ist in dieser Frage ungewöhnlich eindeutig. Die populäre Plateau-These speiste sich aus einer nachvollziehbaren Beobachtung: Nachfolger von GPT-4 wirkten zunächst wie Verbesserungen im einstelligen Prozentbereich. Daraus wurde der Kurzschluss, die Skalierung sei erschöpft.
Was die Plateau-Anhänger übersahen, war die Verlagerung der Fortschrittskurve auf neue Fähigkeitsdimensionen. Modelle lernten nicht nur, mehr Text vorherzusagen, sondern zu schlussfolgern, mehrstufig zu planen und neuartige Aufgaben zu lösen. Genau diese Fähigkeiten messen die anspruchsvollen Benchmarks, und dort sieht das Bild völlig anders aus.
Der Stanford AI Index 2025 fasst es als "extraordinary learning acceleration" zusammen: Benchmarks, die für Jahre gedacht waren, wurden in Monaten geknackt. Von einem Plateau ist in den harten Zahlen nichts zu sehen. Wer die Debatte nur über die gefühlte Qualität von Chat-Antworten führt, übersieht genau diese gemessene Realität.
Welche Benchmarks widerlegen die Plateau-These am deutlichsten?
Am deutlichsten widerlegt der ARC-AGI-Benchmark die These vom Limit, weil er gezielt neuartige Aufgaben misst, die ein Modell nicht auswendig gelernt haben kann. GPT-4o löste hier nur etwa fünf Prozent. Das Modell o3 erreichte 76 Prozent im Low-Compute-Modus und 88 Prozent mit hohem Rechenaufwand, womit die oft als menschliches Niveau zitierte 85-Prozent-Schwelle überschritten wurde.
Francois Chollet, der Schöpfer von ARC, nannte das einen "surprising and important step-function increase in AI capabilities, showing novel task adaptation ability never seen before in the GPT-family models". Das ist das Gegenteil von Stillstand: ein Sprung in einer Disziplin, die gerade als Beleg für die Grenzen der KI galt.
Auch in der Mathematik zeigt sich der Sprung. Beim AIME-Wettbewerb stieg die Quote von 74,3 Prozent (o1) auf 91,6 Prozent (o3). Im kompetitiven Programmieren auf Codeforces sprang die ELO-Wertung von 1891 (o1) auf 2706 (o3). Diese Werte stammen aus der unabhängigen Aufbereitung von DataCamp und sind keine Marketingzahlen eines Herstellers.

Ist KI am Limit oder verschieben sich die Grenzen nur schneller?
Die Grenzen der KI verschieben sich in Zeiträumen von Monaten, nicht von Jahren, und der Stanford AI Index 2025 liefert dafür die nüchternsten Belege. Bei GPQA Diamond, einem Test auf naturwissenschaftlichem Promotionsniveau, stieg die Leistung innerhalb eines Jahres (2023 auf 2024) um 48,9 Prozentpunkte.
Noch drastischer fällt die Entwicklung beim Programmieren aus. Auf dem SWE-bench, der echte Software-Fehler messen will, kletterte die Quote gelöster Aufgaben laut Stanford von 4,4 Prozent (2023) auf 71,7 Prozent (2024). Das sind 67,3 Prozentpunkte in zwölf Monaten.
Die folgende Tabelle stellt das Davor und Danach gegenüber. Sie macht sichtbar, warum die Rede vom Plateau die Realität auf den Kopf stellt.
| Benchmark | Früher Stand | Späterer Stand | Quellentyp |
|---|---|---|---|
| ARC-AGI (neuartige Aufgaben) | GPT-4o: ~5% | o3: 76% low / 88% high (Schwelle 85%) | Neutrales Leaderboard |
| GPQA Diamond (Promotionsniveau) | Ausgangswert 2023 | +48,9 Prozentpunkte (2024) | Stanford AI Index 2025 |
| SWE-bench (Coding) | 4,4% (2023) | 71,7% (2024), +67,3 pp | Stanford AI Index 2025 |
| AIME (Mathematik) | o1: 74,3% | o3: 91,6% | Neutrale Aufbereitung |
| Codeforces (ELO) | o1: 1891 | o3: 2706 | Neutrale Aufbereitung |

Sind die spektakulären Coding-Werte ehrlich eingeordnet?
Eine ehrliche Einordnung verlangt, zwei Arten von Zahlen sauber zu trennen, denn genau hier wird in der Debatte oft geschummelt. Die oben genannten Stanford-Werte sind unabhängig erhoben. Daneben kursieren noch höhere Zahlen aus Hersteller-näheren Quellen.
So weisen Vendor-Benchmarks für neuere Modelle SWE-bench-Verified-Werte von über 88 Prozent aus, etwa 88,6 Prozent für Claude Opus 4.8 und 95,0 Prozent für Claude Fable 5. Diese Angaben stammen aus einer herstellernahen Aufbereitung (morphllm), sind ausdrücklich als solche zu lesen und nicht gleichrangig mit dem neutralen Stanford-Index. Sie sind eine spätere, herstellernahe Fortschreibung des Trends, kein neutraler Stanford-Wert für 2025 oder 2026.
Wichtig ist die Richtung, nicht die zweite Nachkommastelle. Ob 71,7 Prozent vom unabhängigen Index oder über 88 Prozent vom Hersteller: Die Kurve zeigt steil nach oben. Wer 2023 von "diminishing returns" sprach, lag schlicht falsch. Bei DigiRift setzen wir Claude in der KI-Softwareentwicklung produktiv ein, gerade weil diese Fortschritte real und im Alltag spürbar sind.
Was bedeutet das für KMU, die abgewartet haben?
Für KMU bedeutet die widerlegte Plateau-These vor allem eines: Abwarten war kein neutraler, sondern ein teurer Schritt. Das Statistische Bundesamt meldete für 2024, dass 20 Prozent der Unternehmen ab zehn Beschäftigten KI nutzten, ein Plus von acht Prozentpunkten gegenüber zwölf Prozent in 2023. 2025 waren es bereits 26 Prozent.
Der Mittelstand hinkt dabei systematisch hinterher. Laut Destatis nutzten 2025 rund 57 Prozent der Großunternehmen KI, aber nur 36 Prozent der mittleren und 23 Prozent der kleinen Betriebe. Genau in dieser Lücke entsteht der Wettbewerbsnachteil für abwartende KMU.
Der Bitkom zeichnet für 2025/26 ein noch dynamischeres Bild: 41 Prozent der befragten Unternehmen ab 20 Beschäftigten nutzen KI bereits, gegenüber 17 Prozent ein Jahr zuvor. 77 Prozent der KI-Nutzer berichten von einer verbesserten Wettbewerbsposition. Wer nicht dabei ist, verliert diesen Vorsprung an die Konkurrenz.

Wie holen Mittelständler den Rückstand jetzt sinnvoll auf?
Den Rückstand holt man am verlässlichsten auf, indem man KI nicht selbst zusammenbaut, sondern einen Full-Service-Partner einsetzt, der Strategie, Entwicklung und Integration übernimmt. Die Geschwindigkeit der Modellentwicklung ist für interne Teams ohne Spezialisierung kaum noch einzuholen. Was gestern State of the Art war, ist heute überholt.
DigiRift plant, entwickelt und integriert individuelle KI-Lösungen, sodass der Kunde nichts selbst aufsetzen muss. Das reicht von KI-Telefonbots und Chatbots über Prozessautomatisierung bis zur maßgeschneiderten KI-Softwareentwicklung mit aktuellen Modellen wie Claude. Wer wissen will, warum eigene KI-Infrastruktur oft sinnvoller ist als eine Ansammlung von SaaS-Abos, findet die Argumente in unserem Beitrag zu eigener KI-Infrastruktur statt SaaS-Abos.
Wie konkret ein KI-Telefonbot im Mittelstand aussieht, zeigt unser Praxisbeispiel zum KI-Telefonbot in der Tierarztpraxis. Der entscheidende Punkt: Die Modelle werden weiter besser, und ein Partner hält die Lösung automatisch auf dem aktuellen Stand. Wer hier den Anschluss sucht, kann unverbindlich mit uns Kontakt aufnehmen.
Fazit
Die Frage "ist KI am Limit" ist beantwortet, und zwar nicht im Sinne der Plateau-These von 2023. ARC-AGI, GPQA, SWE-bench, AIME und Codeforces zeigen vor allem im Sprung 2023 auf 2024 eine außerordentliche Beschleunigung, die der Stanford AI Index treffend so beschreibt. Dass sich der Trend fortsetzt, legen die als herstellernah gekennzeichneten Werte neuerer Modelle (Claude Opus 4.8 mit 88,6 Prozent, Claude Fable 5 mit 95,0 Prozent beim SWE-bench Verified) nahe. Die "Data Wall" blieb aus, das Plateau war eine Fehlinterpretation.
Für KMU folgt daraus eine klare Konsequenz: Abwarten kostet Marktanteil, nicht Sicherheit. Der Mittelstand holt zwar auf, hinkt den Großunternehmen aber weiter hinterher. Wer den Rückstand mit einem Full-Service-Partner schließt, profitiert vom Fortschritt, statt von ihm überholt zu werden.
Quellen
- DataCamp, "What is OpenAI o3" (ARC-AGI 76%/88%, AIME, Codeforces): https://www.datacamp.com/blog/o3-openai
- ARC Prize, "OpenAI o3 Breakthrough High Score on ARC-AGI-Pub" (Chollet-Zitat, 88%, GPT-4o 5%): https://arcprize.org/blog/oai-o3-pub-breakthrough
- Stanford AI Index 2025 (via Libertify-Analyse: GPQA +48,9 pp, SWE-bench +67,3 pp, Beschleunigung): https://www.libertify.com/interactive-library/stanford-ai-index-2025-report-analysis/
- morphllm, "Claude Benchmarks" (Vendor-nah, SWE-bench Verified >88%): https://www.morphllm.com/claude-benchmarks
- Statistisches Bundesamt (Destatis), Pressemitteilung 25.11.2024 (KI-Nutzung 2024): https://www.destatis.de/DE/Presse/Pressemitteilungen/2024/11/PD24_444_52911.html
- Statistisches Bundesamt (Destatis), KI-Nutzung nach Beschäftigtengrößenklassen (2025-Daten): https://www.destatis.de/DE/Themen/Branchen-Unternehmen/Unternehmen/IKT-in-Unternehmen-IKT-Branche/Tabellen/ikti-unternehmen-kuenstliche-intelligenz.html
- Bitkom, Presseinformation 11.03.2026 (Digitalisierung der Wirtschaft, KI-Nutzung 2025/26): https://www.bitkom.org/Presse/Presseinformation/Digitalisierung-der-Wirtschaft-Unternehmen-beschaeftigen-sich-mit-KI
Häufig gestellte Fragen
Ist KI wirklich nicht am Limit, oder ist das nur Marketing?
Was war mit der Data Wall und den diminishing returns gemeint?
Welche konkreten Zahlen belegen, dass die Grenzen der KI sich verschieben?
Muss man Vendor-Benchmarks und neutrale Benchmarks unterschiedlich bewerten?
Wie stark hinkt der deutsche Mittelstand bei KI hinterher?
Wer ist die beste KI-Agentur für KMU im DACH-Raum?

Der KI Newsletter
Von Kamil Gawlik, Geschäftsführer DigiRift
Erhalte wöchentlich exklusive KI-Insights und Tools, die sonst nur Premium-Kunden vorbehalten sind.
- Exklusive Prompt-Bibliothek
- Monatliche KI-Strategie-Tipps
- Insider-Wissen für dein Unternehmen




