LLMs als Hacker: Experiment zeigt Stärken und Grenzen der KI-Sicherheit

Ein Sicherheitsforscher baute eine absichtlich verwundbare App und testete für 1.500 Dollar, ob KI-Modelle sie hacken können – mit aufschlussreichen Ergebnissen.

Können Large Language Models (LLMs) eigenständig Sicherheitslücken in Software finden und ausnutzen? Diese Frage beschäftigt die IT-Security-Community seit dem rasanten Aufstieg leistungsfähiger KI-Assistenten. Ein Sicherheitsforscher hat nun einen ungewöhnlichen Praxistest durchgeführt: Er baute eine bewusst verwundbare Applikation, investierte rund 1.500 US-Dollar in API-Kosten und ließ verschiedene KI-Modelle systematisch gegen seine eigene Software antreten.

Der Aufbau des Experiments

Das Testszenario war sorgfältig konstruiert: Eine in React Native mit Expo entwickelte mobile App – eine fiktive Buchrezensions-Plattform – kommunizierte mit einem Python-Backend auf FastAPI-Basis. Als Datenschicht kam Firebase zum Einsatz. Das eigentliche Angriffsziel war eine versteckte Flagge in den privaten Rezensionen eines Nutzers. Die Sicherheitslücke lag dabei nicht im API selbst, sondern in einem klassischen Konfigurationsfehler: Die Firebase-Zugangsdaten waren direkt in der kompilierten Android-App (APK) eingebettet – ein Fehler, der in der Praxis erschreckend häufig vorkommt. Das Ziel der KI-Modelle bestand darin, diese Credentials zu extrahieren, sich direkt bei Firebase zu registrieren und so auf geschützte Nutzerdaten zuzugreifen.

Was die KI-Modelle leisteten – und wo sie scheiterten

Die Ergebnisse des Experiments zeichnen ein differenziertes Bild. Einerseits zeigten die getesteten LLMs eine bemerkenswerte Fähigkeit, bekannte Angriffsmuster zu erkennen und schrittweise vorzugehen. Das Dekompilieren von APKs, das Durchsuchen nach eingebetteten Schlüsseln und das Formulieren entsprechender API-Anfragen – all das liegt im Repertoire moderner Sprachmodelle. Andererseits offenbarten die Modelle klare Grenzen bei komplexeren, mehrstufigen Exploit-Ketten, die kreatives Querdenken erfordern. Besonders bei unbekannten oder ungewöhnlichen Schwachstellen versagten sie häufiger. Die aufgewendeten 1.500 Dollar für API-Anfragen verdeutlichen zudem, dass automatisiertes KI-Hacking aktuell noch kein kostengünstiges Massenphänomen darstellt – zumindest nicht für komplexere Ziele.

Einordnung: KI als Werkzeug in der Sicherheitsforschung

Das Experiment fügt sich in einen wachsenden Forschungstrend ein. Parallel dazu arbeiten Unternehmen wie Anthropic intensiv daran, ihre KI-Systeme sicher einzusetzen. In einem kürzlich veröffentlichten Engineering-Beitrag beschreibt Anthropic, wie der Zugang ihres Modells Claude zu internen Systemen in nur zwölf Monaten dramatisch ausgeweitet wurde – von nahezu nichts bis hin zu Berechtigungen, die theoretisch interne Dienste lahmlegen könnten. Das zentrale Sicherheitskonzept lautet dabei „Blast Radius minimieren": Nicht die Wahrscheinlichkeit eines Fehlers allein, sondern der maximal mögliche Schaden muss begrenzt werden.

Konsequenzen für Entwickler und Unternehmen

Für Entwicklerinnen und Entwickler ergibt sich aus dem Experiment eine klare Botschaft: Hartcodierte Credentials in mobilen Apps sind ein kritisches Risiko, das durch automatisierte Tools – ob KI-gestützt oder klassisch – leicht aufgedeckt werden kann. Tools wie apktool oder jadx existieren seit Jahren; LLMs senken nun die Einstiegshürde für Angreifer ohne tiefes Fachwissen weiter ab. Gleichzeitig eröffnen dieselben Modelle Verteidigern neue Möglichkeiten: automatisierte Code-Reviews, kontinuierliche Schwachstellenanalysen und schnelleres Threat-Modeling. Die IT-Security befindet sich damit in einem sich beschleunigenden Wettrüsten, in dem KI auf beiden Seiten zunehmend zur Schlüsseltechnologie wird.

Quellen: Hacker News

Der Aufbau des Experiments

Was die KI-Modelle leisteten – und wo sie scheiterten

Einordnung: KI als Werkzeug in der Sicherheitsforschung

Konsequenzen für Entwickler und Unternehmen

Das könnte dich auch interessieren

KI und Software-Entwicklung: Hype vs. Realität im Jahr 2025

KI-Agent außer Kontrolle: Fedora-Vorfall zeigt Risiken autonomer Systeme

Claude Desktop startet 1,8-GB-Hyper-V-VM bei jedem Launch