Apple-Studie: KI-Modelle dümmer als gedacht?
Eine neue Untersuchung von Apple-Forschern erschüttert die Grundannahmen über die Denkfähigkeiten moderner KI-Systeme. Die Studie zeigt, dass führende "Reasoning-Modelle" bei unbekannten Problemen versagen und möglicherweise nur komplexe Mustererkennung betreiben statt echtes Schlussfolgern.
Apple-Forscher haben in einer neuen Studie mit dem Titel "The Illusion of Thinking" die Reasoning-Fähigkeiten aktueller KI-Modelle kritisch hinterfragt. Die Wissenschaftler testeten verschiedene große "Reasoning-Modelle" (LRMs) wie OpenAI's o3-mini, Anthropic's Claude 3.7 Sonnet-Thinking, DeepSeek-R1 und Googles Gemini-Thinking-Modus mit speziell entwickelten Puzzle-Aufgaben, die diese Modelle zuvor nicht gesehen hatten. Dabei zeigte sich, dass die Modelle bei steigender Komplexität der Aufgaben einen vollständigen Leistungsabfall erfahren und ihre Genauigkeit auf null Prozent sinkt.
Versagen bei komplexen Aufgaben
Die Studie offenbarte drei verschiedene Leistungsbereiche: Bei geringer Komplexität zeigten herkömmliche Modelle sogar bessere Ergebnisse, bei mittlerer Komplexität konnten die "Reasoning-Modelle" einen gewissen Vorteil erzielen, bei hoher Komplexität versagten jedoch alle Modelle vollständig. Besonders bemerkenswert war, dass die Modelle bei steigender Schwierigkeit der Aufgaben weniger Rechenressourcen verwendeten und schneller aufgaben, obwohl ihnen unbegrenzte Rechenzeit zur Verfügung stand. Selbst wenn den Modellen die exakte Lösungsanleitung gegeben wurde, scheiterten sie an denselben Komplexitätspunkten.
Mustererkennung bricht zusammen
Die Apple-Forscher kommen zu dem Schluss, dass diese Modelle nicht tatsächlich "denken" oder schlussfolgern, sondern lediglich ausgeklügelte Mustererkennung betreiben, die bei zu komplexen Mustern zusammenbricht. Sie sehen darin eine fundamentale Beschränkung der aktuellen KI-Ansätze und warnen vor überzogenen Erwartungen bezüglich der Nähe zu einer allgemeinen künstlichen Intelligenz (AGI). Die Forschung legt nahe, dass aktuelle "Reasoning-Durchbrüche" möglicherweise grundlegende Grenzen erreicht haben, die nicht durch das Hinzufügen von mehr Daten oder Rechenleistung überwunden werden können.