KI jagt Bugs: Schneller patchen reicht nicht
Ein Sicherheits-KI-Modell, das eigenständig Exploit-Ketten baut, sich dann aber wieder einigen Aufgaben verweigert – Cloudflare hat Anthropics Mythos Preview monatelang auf die eigenen Systeme losgelassen und zieht erste Lehren aus dem KI-Einsatz. Eine davon lautet: Patchen allein genügt nicht.
Cloudflare hat im Rahmen von Project Glasswing das auf Sicherheitsforschung spezialisierte KI-Modell Mythos Preview von Anthropic mehrere Wochen lang gegen mehr als fünfzig eigene Repositories laufen lassen. Die Ergebnisse, die das Unternehmen jetzt in einem ausführlichen Blogbeitrag veröffentlicht hat, zeichnen ein differenziertes Bild: Das Modell ist ein echter Schritt nach vorn, bringt aber auch neue Probleme mit, die Sicherheitsteams in Zukunft lösen müssen.
Verkettete Exploits
Besonders auffällig ist laut Cloudflare die Fähigkeit von Mythos Preview zur Exploit-Chain-Konstruktion. Wo frühere Modelle einzelne Schwachstellen beschrieben und dann stehenblieben, verbindet das neue Modell mehrere kleinere Angriffsprimitive zu einer funktionierenden Exploit-Kette, ähnlich wie es ein erfahrener menschlicher Sicherheitsforscher tun würde.
Dazu kommt eine automatisierte Proof-Generierung: Das Modell schreibt nicht nur Code, der eine vermutete Schwachstelle auslösen soll, sondern kompiliert und führt ihn in einer isolierten Umgebung aus, liest Fehlermeldungen, passt seine Hypothese an und wiederholt den Prozess, bis ein funktionierender Beweis vorliegt. Eine Schwachstelle, die sich nicht reproduzieren lässt, bleibt Spekulation – Mythos Preview schließt diese Lücke selbstständig.
Verweigerte Anfragen
Allerdings stieß Cloudflare auch auf eine unerwartete Eigenheit: Das Modell verweigert bestimmte Anfragen eigenständig, auch ohne die zusätzlichen Schutzmechanismen, die in allgemein verfügbaren Modellen wie Opus 4.7 eingebaut sind. Das Problem dabei ist die Inkonsistenz dieser organischen Ablehnungen. Dieselbe Aufgabe, in einem anderen Kontext formuliert oder zu einem anderen Zeitpunkt gestellt, kann zu völlig unterschiedlichen Ergebnissen führen.
In einem konkreten Fall verweigerte das Modell zunächst die Schwachstellenanalyse eines Projekts, stimmte derselben Analyse desselben Codes aber zu, nachdem eine unbeteiligte Änderung an der Projektumgebung vorgenommen worden war. Cloudflare wertet das als Argument dafür, dass zukünftige Sicherheits-KI-Modelle zusätzliche, konsistente Schutzebenen brauchen – die organischen Grenzen des Modells allein reichten nicht aus.
Zahlreiche spekulative Funde
Ein weiterer Schwerpunkt des Berichts ist das sogenannte Signal-Rausch-Problem. KI-Modelle neigen dazu, Funde mit Formulierungen wie "möglicherweise" oder "könnte theoretisch" zu hedgen. Und solche spekulativen Funde überwiegen zahlenmäßig deutlich die belastbaren. Das kostet bei Tausenden von Findings enorm viel Zeit und Aufmerksamkeit.
Cloudflare hat darauf mit einem mehrstufigen Harness reagiert, einer strukturierten Ausführungsumgebung mit spezialisierten Agenten für Erkundung, Suche, Validierung, Lückenfüllung, Deduplizierung, Rückverfolgung und Berichterstellung. Der entscheidende Trick dabei: Ein zweiter, unabhängiger Agent versucht aktiv, die Funde des ersten zu widerlegen – mit eigenem Prompt, eigenem Modell und ohne die Fähigkeit, neue Funde selbst zu erzeugen. Zwei Agenten in bewusstem Widerspruch seien, so Cloudflare, deutlich effektiver als ein einzelner Agent, dem man einschärft, vorsichtig zu sein.
Patchen allein genügt nicht
Für Sicherheitsteams zieht Cloudflare aus dem Projekt eine klare Lehre: Schnelligkeit allein reicht nicht. Viele Teams arbeiteten bereits unter einem Zwei-Stunden-SLA von der CVE-Veröffentlichung bis zum Patch in der Produktion, was Regressionstest oft unmöglich mache und neue Fehler einführe.
Mindestens so wichtig wie schnelles Patchen sei die Architektur rund um die Schwachstelle: Exploits erschweren, Angriffswege isolieren, Fixes überall gleichzeitig ausrollen können. Cloudflare weist außerdem darauf hin, dass dieselben Fähigkeiten, die dem eigenen Sicherheitsteam nützen, in falschen Händen die Angreiferseite beschleunigen und kündigt an, in den kommenden Wochen mehr darüber zu kommunizieren, was das für Kunden bedeutet.