Ein zentrales Versprechen moderner KI-Coding-Assistenten lautet: Sie können eigenständig Bugs beheben, Features implementieren und Pull Requests einreichen, die echten Qualitätsstandards genügen. Doch eine neue Untersuchung der KI-Sicherheitsorganisation METR wirft ernsthafte Zweifel an dieser These auf – und stellt gleichzeitig die Aussagekraft eines der meistgenutzten Benchmarks der Branche in Frage.
SWE-bench: Der Goldstandard mit Rissen
SWE-bench Verified gilt in der KI-Entwicklercommunity als einer der wichtigsten Maßstäbe für die Programmierfähigkeiten großer Sprachmodelle. Der Benchmark besteht aus realen GitHub-Issues, die KI-Agenten eigenständig lösen sollen. Besteht der generierte Code die zugehörigen automatisierten Tests, gilt die Aufgabe als erfolgreich gelöst. Viele Anbieter – von OpenAI über Anthropic bis hin zu Google – werben mit ihren SWE-bench-Ergebnissen als Beleg für die Praxistauglichkeit ihrer Modelle.
METR hat nun untersucht, was passiert, wenn man den nächsten logischen Schritt geht: Würden echte Repository-Maintainer diese KI-generierten Pull Requests tatsächlich in ihre Codebasis aufnehmen? Das Ergebnis ist ernüchternd. Für den Zeitraum von Mitte 2024 bis Mitte beziehungsweise Ende 2025 stellten die Forscher fest, dass rund die Hälfte aller test-bestehenden PRs von den zuständigen Maintainern abgelehnt worden wäre – selbst wenn man statistische Schwankungen in den Merge-Entscheidungen herausrechnet.
Warum Tests nicht alles sind
Das Problem liegt in der Natur automatisierter Tests selbst. Sie prüfen, ob ein Code unter definierten Bedingungen das erwartete Ergebnis liefert – nicht aber, ob die Lösung elegant, wartbar, sicher oder im Sinne der Projektphilosophie implementiert wurde. KI-Agenten optimieren naturgemäß auf das messbare Ziel: den Test zum Bestehen zu bringen. Das kann dazu führen, dass Randfälle hart kodiert werden, bestehende Abstraktionen ignoriert oder technische Schulden angehäuft werden.
Erschwerend kommt hinzu, dass die untersuchten Agenten keine Möglichkeit hatten, auf Feedback der Maintainer zu reagieren und ihre Lösungen zu überarbeiten – ein in der menschlichen Softwareentwicklung völlig normaler iterativer Prozess. In der Realität würde ein Entwickler nach einem Review-Kommentar seinen Code anpassen; KI-Agenten im Benchmark-Setting tun das nicht.
Konsequenzen für die Branche
Die Erkenntnisse sind für die gesamte Softwarebranche relevant, denn Investitionen in KI-gestützte Entwicklungswerkzeuge erreichen gerade neue Höchststände. Atlassian etwa hat kürzlich angekündigt, rund 1.600 Stellen abzubauen und die Ressourcen stärker in KI-Initiativen umzuschichten – ein Schritt, der zeigt, wie stark Unternehmen auf die Automatisierung von Entwicklungsaufgaben setzen.
Die METR-Studie mahnt zur Vorsicht bei der unkritischen Übernahme von Benchmark-Ergebnissen als Entscheidungsgrundlage. Ein Modell, das SWE-bench zu 50 oder 60 Prozent löst, ist nicht zwangsläufig eines, das die Hälfte aller realen Entwicklungsaufgaben produktionsreif erledigt. Die Lücke zwischen „Test bestanden" und „Code ist gut" ist offenbar größer als bislang angenommen.
Für Entwickler und Unternehmen bedeutet das: KI-generierter Code braucht nach wie vor sorgfältige menschliche Überprüfung. Die Werkzeuge sind nützlich – aber als vollständiger Ersatz für erfahrene Entwickler taugen sie noch nicht. Gleichzeitig ist die Forschungsgemeinschaft gefordert, bessere Evaluierungsmethoden zu entwickeln, die nicht nur technische Korrektheit, sondern auch Codequalität, Wartbarkeit und Projektkonformität messen.
Quellen: Hacker News