Datenbankfehler führte zu Cloudflare-Ausfall

Lesezeit
1 Minute
Bis jetzt gelesen

Datenbankfehler führte zu Cloudflare-Ausfall

19.11.2025 - 08:03
Veröffentlicht in:

Cloudflare hat die schwere Störung vom 18. November inzwischen als Datenbankfehler identifiziert. Ein fehlerhaft generiertes Konfigurationsfile hatte demnach zentrale Routing- und Sicherheitsfunktionen im globalen Cloudflare-Netzwerk lahmgelegt. Eine vermischte Datenbankabfrage erzeugte doppelte Einträge, die wiederum ein kritisches Modul überlasteten.

Laut Cloudflare begann die Störung am 18. November um 12:20 Uhr, als zentrale Netzwerkkomponenten weltweit plötzlich Fehlerseiten auslieferten. Betroffene Nutzer sahen HTTP-5xx-Meldungen, während Webseiten nicht mehr erreichbar waren. Eine Änderung der Berechtigungen in einem Datenbanksystem führte dazu, dass ein von Cloudflares Bot-Management genutztes "Feature File" unerwartet anwuchs. Dieses Konfigurationsfile wurde automatisiert über alle Rechenzentren verteilt – und brachte zentrale Proxy-Dienste zum Absturz.

Konfigurationsdatei lief voll

Die Ursache entpuppte sich als Kombination aus veränderten Metadaten-Abfragen in einem ClickHouse-Cluster – einem Zusammenschluss mehrerer ClickHouse-Datenbankserver, die gemeinsam als verteiltes Datenbanksystem arbeiten – und einem Softwarelimit, das die Größe des Feature Files nicht überschreiten durfte.

Die Konfigurationsdatei verdoppelte sich jedoch durch unerwartete Duplicate-Einträge, woraufhin Sicherheitsmodule fehlerhaft arbeiteten und Teile des Traffics nicht mehr verarbeitet werden konnten. Besonders verwirrend: Da das File alle fünf Minuten neu generiert wurde, wechselte das Netzwerk zwischen funktionierenden und fehlerhaften Zuständen – was die Diagnose zunächst erschwerte und intern zu Fehlannahmen über einen potenziellen DDoS-Angriff führte.

Die Auswirkungen reichten weit über den reinen Webzugriff hinaus. Neben dem Kern-CDN waren auch Turnstile, Workers KV, Teile des Dashboards sowie Cloudflare Access zeitweise unbrauchbar. Einige Systeme produzierten massiv erhöhte Latenzen, weil Debugging-Mechanismen zusätzliche Last erzeugten. Noch um 15:30 Uhr lief nicht überall stabiler Traffic, erst ab 18:06 Uhr meldete Cloudflare die vollständige Wiederherstellung aller Dienste.

Lehren aus dem Vorfall

Auch die interne Architektur begünstigte den Vorfall: Das Bot-Management-Modul ist tief in den Proxy-Prozess integriert und führt bei Fehlern direkt zum Ausfall von Requests. Zudem zeigte sich, dass die Limits für Feature-Einträge nicht mit der neuen Datenbanklogik harmonierten und die Proxy-Software den Fehler nicht abfing. Eine parallele Migration auf eine neue Proxy-Generation (FL2) sorgte zusätzlich für unterschiedliche Fehlersymptome bei einzelnen Kundengruppen.

Als Konsequenz kündigt Cloudflare umfangreiche Härtungsmaßnahmen an. Dazu gehören strengere Validierungen interner Konfigurationsdateien, zusätzliche globale Kill Switches für fehlerhafte Features, robustere Fehlerbehandlung in Kernmodulen sowie Limits, die verhindern sollen, dass Debug-Informationen selbst Ressourcen überlasten.

Cloudflare spricht von der schwersten Störung seit 2019 und entschuldigt sich ausdrücklich bei Kunden und Partnern – mit dem Hinweis, dass ein Ausfall dieser Größenordnung "tief schmerzhaft" sei und sich nicht wiederholen dürfe.