Die vernachlässigte Gefahr: Silent Data Corruption

09.05.2012 - 13:00

Veröffentlicht in:

Fachartikel

Gegen schleichende Datenkorruption scheint kein Kraut gewachsen zu sein. Keines der proprietären Dateisysteme großer Hersteller bietet vollkommenen Schutz gegen den Verlust von Informationen. Anders sieht es bei auf ZFS basierendem Open Storage aus: Mittels End-to-End-Prüfsummen, transaktionellen Schreiboperationen und dem Copy-on-write-Verfahren sorgt ZFS dafür, dass wichtige Informationen sicher gespeichert sind. Unser Fachartikel zeigt, dass Datenkorruption zwar real, aber vermeidbar ist.

"Bit rot" heißt es manchmal, "Data Corruption" oder aufgrund der Heimlichkeit, in der sie keimt, auch "Silent Data Corruption". Auf Deutsch passt wohl am besten der Ausdruck "schleichende Datenkorruption". Das stille Hinwegraffen von Bits ist ein wenig beachtetes aber ernst zu nehmendes Phänomen, das Dateninhalte von Dokumenten befällt und über eine gewisse Zeit dazu führt, dass Informationen unwiederbringlich verloren gehen. Das Prinzip: Beim Schreiben der Daten kommt es zur unbeabsichtigten Änderung im Bit-Bereich und die Daten lassen sich beim Lesen dann natürlich nicht mehr richtig wiedergeben.

Wer nun denkt, dass ein modernes und intelligentes Dateisystem das fehlerhafte Schreiben erkennt, den Fehler meldet und behebt, liegt meistens falsch: Die Wahrheit ist, dass die meisten aktuellen Dateisysteme diese geänderten Bits nicht erkennen können und somit munter das Schreiben von fehlerhaften Daten unterstützen. Bei der weltweit rasant steigenden Datenmenge wächst also auch die Gefahr, Daten zu verlieren, stetig mit.

So groß ist das Problem stiller Datenkorruption
Um das Problem der schleichenden Datenkorruption zu verdeutlichen, seien ein paar plakative Beispiele genannt: In einer Klinik sind persönliche Krankendaten nicht richtig gesichert, Daten haben sich beim Schreiben oder Sichern verändert. Anstatt von 100 Milligramm erhält der Patient nun 10 Milligramm eines Medikaments. Auch Kontodaten einer Bank könnten sich durch fehlerhafte Bits radikal verändern. Sehr wahrscheinlich würden wohl eher ein paar Nullen fehlen anstatt hinzuzukommen und den Inhaber des Kontos in Kürze vom Millionär zum Bettler machen. Ohne ein sicheres Backup und die Fähigkeit, Silent Data Corruption beim fehlerhaften Schreiben zu erkennen, werden Fehler zudem erst dann offensichtlich, wenn die Daten bereits verloren sind.

Eine kürzlich veröffentlichte Studie, die über einen Zeitraum von 41 Monaten erstellt wurde, analysierte korrupte Daten in Speichersystemen mit mehr als 1,53 Millionen Festplatten. Die Studie spürte drei Arten von Datenkorruption auf: Prüfsummen-Versatz, Identitäts-Diskrepanzen und Paritäts-Inkonsistenzen. Die Studie fand mehr als 400.000 Zwischenfälle von stiller Datenkorruption, wobei Prüfsummen-Versatz der häufigste Fehler war. Dabei wurden die meisten der Fehler erst nach der RAID-Restoration erkannt. Eine weitaus bekanntere Studie des CERN zeigte bereits im Jahre 2007, dass korrupte Daten statistisch in einer von 1.500 Dateien vorkommen. Auch eine Untersuchung, die 3.684 Hosts mit 12.204 LUNs beobachtete, kam zu dem Ergebnis, dass 11,5 Prozent aller LUNs zum Teil zerfallene Daten beherbergten.

Dabei ist das heimliche Sterben von Daten kein Mysterium oder eine impulsive Aktion, die einem System aus heiterem Himmel wiederfährt. Die Gründe für Datenkorruption sind eigentlich ziemlich ordinär: Bootstorms, doppelte Software, Softwarefragmente in der Registry, Überschreiben von Treibern, statt diese zu löschen, aber auch fehlerhafte Motherboards, Controllerkarten und Firmware können die Ursache sein.

Zwar nutzen viele traditionelle Dateisysteme Prüfsummen mit einer Größe von 8 Bit, speichern diese jedoch im entsprechenden Datenblock. Damit können diese zwar Bit Rot erkennen, nicht jedoch Phantom-Schreibvorgänge, falsch adressierte Schreibvorgänge, DMA-Paritätsfehler, Treiberbugs oder zufälliges Überschreiben.

Hierarchischer Aufbau von Dateisystemen begünstigt für Datenkorruption
Ein Problem, das viele herkömmliche Dateisysteme nicht gelöst haben, besteht darin, dass die Storage-Architektur zur Verwaltung des Speichers aus drei voneinander unabhängigen Komponenten besteht:

Das Storage-Management: RAID-Controller erstellen und kontrollieren die Festplattenarchitektur.
Das Volume-Management: Eine spezielle zusätzliche Software teilt die logischen Festplattenverbünde (RAID-Gruppen) in logische Volumen ein, die maximal eine bestimmte Größe haben dürfen, die das darin installierte Dateisystem verwalten kann. So erlaubt beispielsweise FAT32 nur eine Größe bis 8 TByte und eine maximale Dateigröße von 4 GByte.
Das Dateisystem: Dieses wird pro Volume installiert und ist somit fest an dieses geknüpft. Die Vergrößerung eines Volume hat zur Folge, dass auch das Dateisystem vergrößert werden muss, was bei mehrmaliger Vergrößerung zu Performanceproblemen führt.

Jede dieser drei Ebenen birgt die Gefahr, dass Daten korrumpiert werden können, beispielsweise durch einen defekten RAID-Controller oder durch einen Fehler in der Software. Da die Ebenen unabhängig voneinander arbeiten, erkennt die jeweils andere Ebene die Datenkorruption nicht. So kann das Dateisystem, das auf einen defekten Datenblock der Festplatte zugreift, diesen Defekt nicht ausmachen, sondern dieser wird erst von der Applikation registriert, die den Datenblock nicht einlesen kann. Dann ist es jedoch bereits zu spät – die Daten sind korrumpiert und das Dateisystem ist nicht in der Lage, den Fehler zu korrigieren. So bleibt nur die Wiederherstellung der Daten von Sicherheitskopien als Lösung übrig, doch möglicherweise sind diese Daten bereits veraltet. Datenverlust kann die Folge sein.

Seite 1 von 2 Nächste Seite>>

Claudia Hildebrandt, Sales Engineer bei Nexenta/ln

Die vernachlässigte Gefahr: Silent Data Corruption

Die vernachlässigte Gefahr: Silent Data Corruption

Tags

Ähnliche Beiträge

Drei zentrale Herausforderungen für das Datenmanagement

Im Test: Power Admin Storage Monitor 9.3

All-Flash-Rechenzentrum beim Bio-Großhändler

Partner Links

Kontakt