Neues KI-Modell denkt wie ein Hacker

Lesezeit
3 Minuten
Bis jetzt gelesen

Neues KI-Modell denkt wie ein Hacker

10.02.2026 - 07:00
Veröffentlicht in:

Ein neues KI-Modell findet Sicherheitslücken dort, wo herkömmliche Tools scheitern. Während klassische Fuzzer blind testen, liest Claude Opus 4.6 Code wie ein menschlicher Forscher – und findet direkt hunderte kritische Schwachstellen in etablierter Open-Source-Software. Aber auch an anderer Stelle bringt das aktuelle Release hilfreiche Fähigkeiten mit.

Anthropic hat mit Claude Opus 4.6 ein KI-Modell veröffentlicht, das nach Unternehmensangaben deutlich besser darin ist, kritische Sicherheitslücken in Software zu identifizieren. Das Modell unterscheidet sich fundamental von herkömmlichen Sicherheitstools: Statt wie klassische Fuzzer wahllos Eingaben zu testen, liest und versteht es Code ähnlich wie ein menschlicher Sicherheitsforscher.

In ersten Tests fand Opus 4.6 schwerwiegende Schwachstellen in etablierten Codebases, die teilweise jahrzehntelang unentdeckt geblieben waren - trotz millionenfacher Fuzzing-Durchläufe. Das Unternehmen setzt das Modell nun gezielt ein, um Open-Source-Projekte abzusichern.

500 kritische Schwachstellen entdeckt

Die Ergebnisse fallen beachtlich aus: Mehr als 500 validierte High-Severity-Schwachstellen hat Anthropic nach eigenen Angaben bereits gefunden und beginnt nun, diese an die Maintainer zu melden. Die ersten Patches landen bereits in den betroffenen Projekten. Das Unternehmen konzentriert sich bewusst auf Open-Source-Software, da diese überall läuft – von Unternehmensystemen bis zu kritischer Infrastruktur.

Viele dieser Projekte werden von kleinen Teams oder Freiwilligen betreut, die keine dedizierten Sicherheitsressourcen haben. Um die Maintainer nicht mit Falschmeldungen zu überlasten, validiert Anthropic jede Schwachstelle manuell durch eigene und externe Sicherheitsforscher, bevor sie gemeldet wird.

Konkrete Beispiele zeigen, wie das Modell arbeitet: Bei GhostScript, einem verbreiteten PDF-Prozessor, durchsuchte Claude die Git-Historie, fand einen Commit über "Stack Bounds Checking" und schloss daraus, dass ähnliche Schwachstellen an anderen Stellen im Code noch ungepatcht sein könnten. Tatsächlich entdeckte das Modell eine entsprechende Lücke in einer anderen Datei.

Bei OpenSC, einem Tool für Smartcard-Daten, identifizierte Claude problematische strcat-Operationen, die traditionelle Fuzzer kaum erreichen, weil zu viele Vorbedingungen erfüllt sein müssen. Bei der CGIF-Bibliothek demonstrierte das Modell sogar tiefes Verständnis des LZW-Kompressionsalgorithmus, um eine komplexe Buffer-Overflow-Schwachstelle zu konstruieren.

Probes sollen Missbrauch verhindern

Parallel zur Veröffentlichung führt Anthropic neue Sicherheitsmaßnahmen ein, um Missbrauch zu verhindern. Das Unternehmen setzt sogenannte "Probes" ein – Messsysteme, die Aktivierungen im Modell während der Antwortgenerierung analysieren und spezifische Cyberbedrohungen erkennen. Bei Verdacht auf missbräuchliche Nutzung kann das System nun in Echtzeit eingreifen und Traffic blockieren.

Anthropic räumt ein, dass dies auch legitime Sicherheitsforschung beeinträchtigen könnte, und will mit der Security-Community an Lösungen arbeiten. Die Maßnahmen sollen verhindern, dass die Fähigkeiten des Modells von Angreifern ausgenutzt werden.

Anthropic geht davon aus, dass Sprachmodelle bereits jetzt in der Lage sind, neuartige Schwachstellen zu identifizieren und bald schneller arbeiten könnten als selbst erfahrene menschliche Forscher. Das Unternehmen argumentiert, dass bestehende Disclosure-Standards wie 90-Tage-Fristen möglicherweise nicht mehr mit der Geschwindigkeit und dem Volumen KI-entdeckter Bugs mithalten können. Die Branche müsse Workflows entwickeln, die mit dieser neuen Realität Schritt halten.

Ein Balkendiagramm, das die Long-context-Retrieval-Fähigkeiten von Claude Opus 4.6 verdeutlicht.
Claude Opus 4.6 schlägt sich im MRCR v2-Benchmark beim Aufspüren versteckter Informationen gut. (Quelle: anthropic.com)

Eine Millionen Token als Kontext

Claude Opus 4.6 bringt neben den verbesserten Sicherheitsfähigkeiten auch deutliche Fortschritte in anderen Bereichen. Das Modell plant präziser, hält länger bei komplexen Aufgaben durch und arbeitet zuverlässiger in großen Codebasen. Erstmals bietet ein Opus-Modell ein Kontextfenster von einer Million Token - das erlaubt es, wesentlich mehr Informationen gleichzeitig zu verarbeiten.

In Benchmarks setzt Opus 4.6 neue Maßstäbe: Bei Terminal-Bench 2.0, einem Test für autonomes Programmieren, erreicht es die Höchstpunktzahl. Auf GDPval-AA, einer Evaluation für wirtschaftlich wertvolle Wissensarbeit in Bereichen wie Finanzen und Recht, übertrifft es OpenAIs GPT-5.2 um 144 Elo-Punkte. Auch bei der Informationssuche im Netz schneidet das Modell besser ab als alle Konkurrenten.

Die praktischen Anwendungen reichen weit über Code-Analyse hinaus. Opus 4.6 erstellt Finanzanalysen, verarbeitet Dokumente und arbeitet mit Tabellenkalkulationen und Präsentationen. Anthropic hat dafür auch seine Produktpalette erweitert: In Claude Code können Entwickler nun Agent-Teams zusammenstellen, die parallel an Aufgaben arbeiten. Claude in Excel bewältigt längere und komplexere Aufgaben, während das neu vorgestellte Claude in PowerPoint Präsentationen erstellt und dabei Layout, Schriftarten und Folienmaster berücksichtigt.

Besonders interessant ist die verbesserte Long-Context-Performance. Beim MRCR v2-Benchmark, der die Fähigkeit testet, versteckte Informationen in großen Textmengen zu finden, erreicht Opus 4.6 in der 8-Needle-Variante mit einer Million Token 76 Prozent – Sonnet 4.5 schaffte nur 18,5 Prozent. Das adressiert ein bekanntes Problem von KI-Modellen: "Context Rot", also die Verschlechterung der Leistung bei sehr langen Konversationen.

Angepasstes Denken

Für Entwickler führt Anthropic mit Opus 4.6 deutlich mehr Kontrollmöglichkeiten ein. Das neue "Adaptive Thinking" erlaubt es dem Modell, selbst zu entscheiden, wann vertieftes Reasoning sinnvoll ist – bisher gab es nur eine binäre Wahl zwischen aktiviert und deaktiviert. Über vier Effort-Level (low, medium, high, max) können Entwickler steuern, wie intensiv das Modell nachdenkt, was direkten Einfluss auf Intelligenz, Geschwindigkeit und Kosten hat.

Context Compaction fasst automatisch ältere Teile der Konversation zusammen, wenn sich das Gespräch der Kontextgrenze nähert. Das soll längere Aufgaben ohne Limits ermöglichen. Der Output wurde auf bis zu 128.000 Token erweitert, sodass größere Ergebnisse nicht mehr in mehrere Anfragen aufgeteilt werden müssen.

Anthropic hat für das Modell ferner die nach eigener Aussage bisher umfangreichsten Sicherheitstests durchgeführt, darunter erstmals Evaluationen für User Wellbeing und komplexere Tests der Ablehnungsfähigkeit bei gefährlichen Anfragen. Sechs neue Cyber-Probes überwachen verschiedene Formen potenziellen Missbrauchs in Echtzeit. Gleichzeitig zeigt das Modell die niedrigste Rate an "Over-Refusals" aller jüngeren Claude-Versionen - es lehnt also seltener harmlose Anfragen fälschlicherweise ab.

An den Preisen soll sich derweil sich nichts ändern. Das Modell kostet weiterhin 5 Dollar pro Million Input-Token und 25 Dollar für Output-Token. Anthropic betont, dass trotz der Leistungssteigerung das Sicherheitsniveau mindestens auf dem Level des Vorgängers liegt.