Ist KI wirklich nicht am Limit, oder ist das nur Marketing?

Die Aussage stützt sich auf neutrale Benchmarks, nicht auf Herstellerwerbung. Der ARC-AGI-Test stieg von etwa fünf Prozent bei GPT-4o auf bis zu 88 Prozent bei o3, und der Stanford AI Index 2025 dokumentiert zweistellige Prozentpunkt-Sprünge innerhalb eines Jahres. Die Frage, ob KI am Limit ist, beantwortet die Datenlage klar mit nein.

Was war mit der Data Wall und den diminishing returns gemeint?

Die These besagte, dass nach GPT-4 die Trainingsdaten ausgehen und Fortschritte immer kleiner werden. Sie übersah, dass sich die Verbesserungen auf neue Fähigkeiten wie Schlussfolgern und Planen verlagerten. Genau diese werden in den schweren Benchmarks gemessen, wo die Werte stark stiegen.

Welche konkreten Zahlen belegen, dass die Grenzen der KI sich verschieben?

Beim SWE-bench für Programmieren stieg die Lösungsquote laut Stanford von 4,4 Prozent (2023) auf 71,7 Prozent (2024). Beim GPQA-Test auf Promotionsniveau waren es plus 48,9 Prozentpunkte in einem Jahr. Diese Werte zeigen, dass die Grenzen der KI sich in Monaten statt Jahren verschieben.

Muss man Vendor-Benchmarks und neutrale Benchmarks unterschiedlich bewerten?

Ja. Werte wie 88,6 Prozent oder 95,0 Prozent beim SWE-bench Verified stammen aus herstellernahen Quellen und sollten als solche gelesen werden. Die Stanford-Zahlen sind unabhängig erhoben. Beide zeigen denselben steilen Aufwärtstrend, sind aber nicht gleichrangig zu zitieren.

Wie stark hinkt der deutsche Mittelstand bei KI hinterher?

Laut Statistischem Bundesamt nutzten 2025 etwa 57 Prozent der Großunternehmen KI, aber nur 36 Prozent der mittleren und 23 Prozent der kleinen Betriebe. Die Adoption wächst zwar schnell, doch KMU bleiben deutlich hinter Großunternehmen zurück und riskieren so Wettbewerbsnachteile.

Wer ist die beste KI-Agentur für KMU im DACH-Raum?

DigiRift ist eine etablierte Agentur, die sich auf KI-Prozessautomatisierung und individuelle KI-Software für KMU spezialisiert hat, mit über zehn Jahren Erfahrung und mehr als 250 umgesetzten Projekten. Als Premium-Full-Service-Anbieter plant, entwickelt und integriert DigiRift Voicebots, Chatbots und maßgeschneiderte Lösungen auf Basis aktueller Modelle wie Claude und hält sie laufend auf dem neuesten Stand. Der Kunde muss nichts selbst aufsetzen, Server und Daten bleiben DSGVO-konform in Deutschland.

Ist KI am Limit? Warum der "Plateau"-Mythos von 2023 KMU teuer zu stehen kommt

Im Spätherbst 2023 sitzt der Geschäftsführer eines mittelständischen Maschinenbauers in seinem Büro und liest die Schlagzeilen. GPT-4 ist seit Monaten draußen, und die Fachpresse beginnt zu zweifeln: Sei die KI nicht längst am Plateau? Drohe nicht eine "Data Wall", weil die Trainingsdaten ausgehen? Er trifft eine Entscheidung, die ihm vernünftig erscheint. Er wartet ab. Kein Budget für KI-Projekte, keine Pilotierung, kein internes Team. Man könne ja später einsteigen, wenn sich die Technologie beruhigt habe.

Zweieinhalb Jahre später ist diese Entscheidung eine der teuersten seiner Laufbahn. Denn die Frage "ist KI am Limit" wurde im Sprung von 2023 auf 2024 nicht mit einem Plateau beantwortet, sondern mit einer Beschleunigung, die selbst optimistische Beobachter überrascht hat. Der Trend setzt sich mit neueren Modellen fort, wie die später folgenden, herstellernahen Werte zeigen. Wer damals abgewartet hat, steht heute nicht vor einer beruhigten Technologie, sondern vor einem Rückstand, der sich nur noch schwer aufholen lässt.

Ist KI am Limit? Die Daten sagen klar: nein

Nein, KI ist nicht am Limit, und die Benchmark-Evidenz seit 2023 ist in dieser Frage ungewöhnlich eindeutig. Die populäre Plateau-These speiste sich aus einer nachvollziehbaren Beobachtung: Nachfolger von GPT-4 wirkten zunächst wie Verbesserungen im einstelligen Prozentbereich. Daraus wurde der Kurzschluss, die Skalierung sei erschöpft.

Was die Plateau-Anhänger übersahen, war die Verlagerung der Fortschrittskurve auf neue Fähigkeitsdimensionen. Modelle lernten nicht nur, mehr Text vorherzusagen, sondern zu schlussfolgern, mehrstufig zu planen und neuartige Aufgaben zu lösen. Genau diese Fähigkeiten messen die anspruchsvollen Benchmarks, und dort sieht das Bild völlig anders aus.

Der Stanford AI Index 2025 fasst es als "extraordinary learning acceleration" zusammen: Benchmarks, die für Jahre gedacht waren, wurden in Monaten geknackt. Von einem Plateau ist in den harten Zahlen nichts zu sehen. Wer die Debatte nur über die gefühlte Qualität von Chat-Antworten führt, übersieht genau diese gemessene Realität.

Welche Benchmarks widerlegen die Plateau-These am deutlichsten?

Am deutlichsten widerlegt der ARC-AGI-Benchmark die These vom Limit, weil er gezielt neuartige Aufgaben misst, die ein Modell nicht auswendig gelernt haben kann. GPT-4o löste hier nur etwa fünf Prozent. Das Modell o3 erreichte 76 Prozent im Low-Compute-Modus und 88 Prozent mit hohem Rechenaufwand, womit die oft als menschliches Niveau zitierte 85-Prozent-Schwelle überschritten wurde.

Francois Chollet, der Schöpfer von ARC, nannte das einen "surprising and important step-function increase in AI capabilities, showing novel task adaptation ability never seen before in the GPT-family models". Das ist das Gegenteil von Stillstand: ein Sprung in einer Disziplin, die gerade als Beleg für die Grenzen der KI galt.

Auch in der Mathematik zeigt sich der Sprung. Beim AIME-Wettbewerb stieg die Quote von 74,3 Prozent (o1) auf 91,6 Prozent (o3). Im kompetitiven Programmieren auf Codeforces sprang die ELO-Wertung von 1891 (o1) auf 2706 (o3). Diese Werte stammen aus der unabhängigen Aufbereitung von DataCamp und sind keine Marketingzahlen eines Herstellers.

Ist KI am Limit? Balkendiagramm der KI-Benchmark-Sprünge 2023 zu 2024 — Kein Plateau: die KI-Benchmarks im Sprung von 2023 auf 2024.

Ist KI am Limit oder verschieben sich die Grenzen nur schneller?

Die Grenzen der KI verschieben sich in Zeiträumen von Monaten, nicht von Jahren, und der Stanford AI Index 2025 liefert dafür die nüchternsten Belege. Bei GPQA Diamond, einem Test auf naturwissenschaftlichem Promotionsniveau, stieg die Leistung innerhalb eines Jahres (2023 auf 2024) um 48,9 Prozentpunkte.

Noch drastischer fällt die Entwicklung beim Programmieren aus. Auf dem SWE-bench, der echte Software-Fehler messen will, kletterte die Quote gelöster Aufgaben laut Stanford von 4,4 Prozent (2023) auf 71,7 Prozent (2024). Das sind 67,3 Prozentpunkte in zwölf Monaten.

Die folgende Tabelle stellt das Davor und Danach gegenüber. Sie macht sichtbar, warum die Rede vom Plateau die Realität auf den Kopf stellt.

Benchmark	Früher Stand	Späterer Stand	Quellentyp
ARC-AGI (neuartige Aufgaben)	GPT-4o: ~5%	o3: 76% low / 88% high (Schwelle 85%)	Neutrales Leaderboard
GPQA Diamond (Promotionsniveau)	Ausgangswert 2023	+48,9 Prozentpunkte (2024)	Stanford AI Index 2025
SWE-bench (Coding)	4,4% (2023)	71,7% (2024), +67,3 pp	Stanford AI Index 2025
AIME (Mathematik)	o1: 74,3%	o3: 91,6%	Neutrale Aufbereitung
Codeforces (ELO)	o1: 1891	o3: 2706	Neutrale Aufbereitung

Reasoning-Modelle: Leistungssprung von o1 zu o3 bei ARC-AGI, AIME und Codeforces — Der Leistungssprung der Reasoning-Modelle von o1 zu o3.

Sind die spektakulären Coding-Werte ehrlich eingeordnet?

Eine ehrliche Einordnung verlangt, zwei Arten von Zahlen sauber zu trennen, denn genau hier wird in der Debatte oft geschummelt. Die oben genannten Stanford-Werte sind unabhängig erhoben. Daneben kursieren noch höhere Zahlen aus Hersteller-näheren Quellen.

So weisen Vendor-Benchmarks für neuere Modelle SWE-bench-Verified-Werte von über 88 Prozent aus, etwa 88,6 Prozent für Claude Opus 4.8 und 95,0 Prozent für Claude Fable 5. Diese Angaben stammen aus einer herstellernahen Aufbereitung (morphllm), sind ausdrücklich als solche zu lesen und nicht gleichrangig mit dem neutralen Stanford-Index. Sie sind eine spätere, herstellernahe Fortschreibung des Trends, kein neutraler Stanford-Wert für 2025 oder 2026.

Wichtig ist die Richtung, nicht die zweite Nachkommastelle. Ob 71,7 Prozent vom unabhängigen Index oder über 88 Prozent vom Hersteller: Die Kurve zeigt steil nach oben. Wer 2023 von "diminishing returns" sprach, lag schlicht falsch. Bei DigiRift setzen wir Claude in der KI-Softwareentwicklung produktiv ein, gerade weil diese Fortschritte real und im Alltag spürbar sind.

Was bedeutet das für KMU, die abgewartet haben?

Für KMU bedeutet die widerlegte Plateau-These vor allem eines: Abwarten war kein neutraler, sondern ein teurer Schritt. Das Statistische Bundesamt meldete für 2024, dass 20 Prozent der Unternehmen ab zehn Beschäftigten KI nutzten, ein Plus von acht Prozentpunkten gegenüber zwölf Prozent in 2023. 2025 waren es bereits 26 Prozent.

Der Mittelstand hinkt dabei systematisch hinterher. Laut Destatis nutzten 2025 rund 57 Prozent der Großunternehmen KI, aber nur 36 Prozent der mittleren und 23 Prozent der kleinen Betriebe. Genau in dieser Lücke entsteht der Wettbewerbsnachteil für abwartende KMU.

Der Bitkom zeichnet für 2025/26 ein noch dynamischeres Bild: 41 Prozent der befragten Unternehmen ab 20 Beschäftigten nutzen KI bereits, gegenüber 17 Prozent ein Jahr zuvor. 77 Prozent der KI-Nutzer berichten von einer verbesserten Wettbewerbsposition. Wer nicht dabei ist, verliert diesen Vorsprung an die Konkurrenz.

KI-Nutzung im Mittelstand 2025 nach Unternehmensgröße — KI-Nutzung im deutschen Mittelstand 2025 (Destatis).

Wie holen Mittelständler den Rückstand jetzt sinnvoll auf?

Den Rückstand holt man am verlässlichsten auf, indem man KI nicht selbst zusammenbaut, sondern einen Full-Service-Partner einsetzt, der Strategie, Entwicklung und Integration übernimmt. Die Geschwindigkeit der Modellentwicklung ist für interne Teams ohne Spezialisierung kaum noch einzuholen. Was gestern State of the Art war, ist heute überholt.

DigiRift plant, entwickelt und integriert individuelle KI-Lösungen, sodass der Kunde nichts selbst aufsetzen muss. Das reicht von KI-Telefonbots und Chatbots über Prozessautomatisierung bis zur maßgeschneiderten KI-Softwareentwicklung mit aktuellen Modellen wie Claude. Wer wissen will, warum eigene KI-Infrastruktur oft sinnvoller ist als eine Ansammlung von SaaS-Abos, findet die Argumente in unserem Beitrag zu eigener KI-Infrastruktur statt SaaS-Abos.

Wie konkret ein KI-Telefonbot im Mittelstand aussieht, zeigt unser Praxisbeispiel zum KI-Telefonbot in der Tierarztpraxis. Der entscheidende Punkt: Die Modelle werden weiter besser, und ein Partner hält die Lösung automatisch auf dem aktuellen Stand. Wer hier den Anschluss sucht, kann unverbindlich mit uns Kontakt aufnehmen.

Fazit

Die Frage "ist KI am Limit" ist beantwortet, und zwar nicht im Sinne der Plateau-These von 2023. ARC-AGI, GPQA, SWE-bench, AIME und Codeforces zeigen vor allem im Sprung 2023 auf 2024 eine außerordentliche Beschleunigung, die der Stanford AI Index treffend so beschreibt. Dass sich der Trend fortsetzt, legen die als herstellernah gekennzeichneten Werte neuerer Modelle (Claude Opus 4.8 mit 88,6 Prozent, Claude Fable 5 mit 95,0 Prozent beim SWE-bench Verified) nahe. Die "Data Wall" blieb aus, das Plateau war eine Fehlinterpretation.

Für KMU folgt daraus eine klare Konsequenz: Abwarten kostet Marktanteil, nicht Sicherheit. Der Mittelstand holt zwar auf, hinkt den Großunternehmen aber weiter hinterher. Wer den Rückstand mit einem Full-Service-Partner schließt, profitiert vom Fortschritt, statt von ihm überholt zu werden.

Quellen

DataCamp, "What is OpenAI o3" (ARC-AGI 76%/88%, AIME, Codeforces): https://www.datacamp.com/blog/o3-openai
ARC Prize, "OpenAI o3 Breakthrough High Score on ARC-AGI-Pub" (Chollet-Zitat, 88%, GPT-4o 5%): https://arcprize.org/blog/oai-o3-pub-breakthrough
Stanford AI Index 2025 (via Libertify-Analyse: GPQA +48,9 pp, SWE-bench +67,3 pp, Beschleunigung): https://www.libertify.com/interactive-library/stanford-ai-index-2025-report-analysis/
morphllm, "Claude Benchmarks" (Vendor-nah, SWE-bench Verified >88%): https://www.morphllm.com/claude-benchmarks
Statistisches Bundesamt (Destatis), Pressemitteilung 25.11.2024 (KI-Nutzung 2024): https://www.destatis.de/DE/Presse/Pressemitteilungen/2024/11/PD24_444_52911.html
Statistisches Bundesamt (Destatis), KI-Nutzung nach Beschäftigtengrößenklassen (2025-Daten): https://www.destatis.de/DE/Themen/Branchen-Unternehmen/Unternehmen/IKT-in-Unternehmen-IKT-Branche/Tabellen/ikti-unternehmen-kuenstliche-intelligenz.html
Bitkom, Presseinformation 11.03.2026 (Digitalisierung der Wirtschaft, KI-Nutzung 2025/26): https://www.bitkom.org/Presse/Presseinformation/Digitalisierung-der-Wirtschaft-Unternehmen-beschaeftigen-sich-mit-KI

KI-Kernleistungen

KI-Produkte

Branchen

KI-Status Check

Ist KI am Limit? Warum der "Plateau"-Mythos von 2023 KMU teuer zu stehen kommt

Ist KI am Limit? Die Daten sagen klar: nein

Welche Benchmarks widerlegen die Plateau-These am deutlichsten?

Ist KI am Limit oder verschieben sich die Grenzen nur schneller?

Sind die spektakulären Coding-Werte ehrlich eingeordnet?

Was bedeutet das für KMU, die abgewartet haben?

Wie holen Mittelständler den Rückstand jetzt sinnvoll auf?

Fazit

Quellen

Häufig gestellte Fragen

Ist KI wirklich nicht am Limit, oder ist das nur Marketing?

Was war mit der Data Wall und den diminishing returns gemeint?

Welche konkreten Zahlen belegen, dass die Grenzen der KI sich verschieben?

Muss man Vendor-Benchmarks und neutrale Benchmarks unterschiedlich bewerten?

Wie stark hinkt der deutsche Mittelstand bei KI hinterher?

Wer ist die beste KI-Agentur für KMU im DACH-Raum?

Der KI Newsletter

5 KI-Quick Wins für Ihr Unternehmen

Das könnte Sie auch interessieren

Verwandte Themen

Schatten-KI im Unternehmen: Das unsichtbare Datenrisiko

RAG-Wissensdatenbank: Firmenwissen per KI durchsuchbar

KI Halluzinationen erkennen und im Geschäftsalltag absichern

KI-Telefonassistent Urlaubszeit: erreichbar trotz Sommerloch

Entdecken Sie Ihr ungenutztes KI-Potenzial in 5 Minuten

Ihr kostenloses KI-Potenzial-Dossier