Machine Learning für mehr Datensicherheit

24.09.2021 - 12:28

Veröffentlicht in:

News

Die Erfahrungen der vergangenen zwei Jahre sind eindeutig: Einen Ransomware-Angriff zu verhindern ist schwierig. Manche Experten sagen sogar, dass es selbst mit der neuesten Technologie und einem soliden, umfassenden Verteidigungsansatz nahezu unmöglich ist. Wenn es also keinen todsicheren Weg gibt, einen Angriff zu verhindern, ist die Wiederherstellung die nächstbeste Option. Bei einem Wiederherstellungsplan für Ransomware gibt es jedoch viele Entscheidungen und Nuancen.

Welche Prioritäten sollten beispielsweise gesetzt werden: schnelle Wiederherstellung und Wiederaufnahme des Betriebs, forensische Untersuchungen zur Ermittlung der Angriffsursache oder Minimierung des Datenverlusts während der Wiederherstellung? Rubrik [1] geht dieser Fragestellung auf den Grund.

Wenn eine schnelle Wiederherstellung Priorität hat, verzichten Unternehmen in der Regel auf die Möglichkeit, forensische Untersuchungen durchzuführen, um festzustellen, wie der Angriff zustande kam und sich ausbreitete, was einem erneuten Angriff Tür und Tor öffnet. Außerdem verzichten sie darauf, festzustellen, welche Daten betroffen waren und welche nicht.

Das bedeutet, dass sie Daten wiederherstellen, die während des Angriffs nicht berührt wurden, und bei der Wiederherstellung gute Daten mit älteren Daten überschreiben. Indem sie der Forensik Priorität einräumen, können Unternehmen sicherstellen, dass sich ein solcher Angriff nicht wiederholen kann. Dies erfordert jedoch Zeit, Fachwissen und Tools, was dazu führen kann, dass der Geschäftsbetrieb viel länger ausfällt, als eigentlich geplant. Auch die Feststellung, welche Daten genau von dem Angriff betroffen sind, kann einige Zeit in Anspruch nehmen, bis die Administratoren die Protokolle durchgesehen haben, um die Situation zu beurteilen.

Maschinelles Lernen trifft Entscheidungen
Jede dieser Prioritäten scheint einen beträchtlichen Nachteil mit sich zu bringen, der die Entscheidung sehr schwierig macht. Daher wurde nach neueren Technologien wie dem maschinellen Lernen (ML) gesucht, um diese Entscheidungen zu treffen. Herkömmliche Technologien verwenden Algorithmen, bei denen der Mensch explizit Aktionen programmieren muss.

Diese Algorithmen können zwar recht komplex und leistungsfähig sein, aber sie können nur das tun, wozu der Programmierer sie befähigt hat. Mit anderen Worten: Wenn der Algorithmus auf eine unvorhergesehene Situation stößt, wird er wahrscheinlich einen Fehler verursachen oder auf andere Weise nicht das gewünschte Ergebnis erzielen. Ein Programmierer könnte zum Beispiel einen Algorithmus erstellen, der einen Stapel von Bildern analysiert und feststellt, ob ein Hund auf dem Bild ist. Dieser Programmierer müsste im Vorfeld entscheiden, welche Eigenschaften ein Hund hat. Dann müsste er entscheiden, ob auf dem Bild ein Hund zu sehen ist oder nicht. Daraus resultieren vielerlei Möglichkeiten – und Schwierigkeiten.

Andererseits ist ML ein System, das lernen und sich anpassen kann, ohne ausdrückliche Anweisungen zu erhalten. ML kann Algorithmen und statistische Modelle verwenden, um Muster in Daten zu analysieren. Um auf das Beispiel zurückzukommen: Ein ML-System benötigt keine Vorabdefinition dessen, was ein Hund ist und was nicht. Damit das System weiß, was ein Hund ist, kann der Programmierer das System mit Bildern "füttern", die Hunde enthalten, und diese Bilder werden vom Programmierer markiert, damit das System weiß, dass es sich tatsächlich um Bilder von Hunden handelt.

So kann das ML-System "lernen", was ein Hund ist. Umgekehrt können Bilder ohne Hunde in das System eingespeist und als nicht hundeähnlich gekennzeichnet werden. Das ML-System kann sich dann auf die Suche nach Bildern machen, auf denen Hunde zu sehen sind, während es gleichzeitig sein Verständnis weiter verfeinert und abstimmt – oder eben lernt. Dieses kontinuierliche Lernen und Anpassen ist der Schlüssel.

ML für die Datenwiederherstellung
Die Sicherungsdaten eines Unternehmens sind reich an Informationen. Dazu gehören der Inhalt selbst sowie Metadaten wie Pfad, Größe, ACL-Details, UIDs, GIDs und andere Attribute. Die Rubrik-Zero-Trust-Data-Management-Plattform kann diese Informationen dann in eine Pipeline für maschinelles Lernen einspeisen. Diese liefert intelligente Erkenntnisse, die den Entscheidungsprozess bei der Wiederherstellung nach Ransomware-Angriffen optimieren. Wie wendet nun Rubrik maschinelle Lernmodelle auf Daten an?

Rubrik bezeichnet Backups als Snapshots. Diese Snapshots werden über die Rubrik-Cloud-Data-Management-(CDM)-Plattform vor Ort erstellt. Sobald ein Snapshot in CDM abgeschlossen ist, wird eine Filesystem-Metadata-Diff-(FMD)-Datei erstellt. Diese FMD-Datei enthält eine Liste von Einträgen, die den erstellten, gelöschten oder geänderten Dateien entsprechen, und ist im Wesentlichen ein Protokoll der Dateiänderungen, die auf dem Backup stattgefunden haben. Anstatt die rechenintensive Pipeline für maschinelles Lernen lokal in CDM auszuführen, werden die FMD-Dateien in Rubrik Polaris hochgeladen, um sie von der Pipeline für maschinelles Lernen in der Cloud verarbeiten zu lassen.

Nur FMD-Dateien und ihre zugehörigen Metadaten werden an Rubrik Polaris übertragen. Dies bedeutet, dass Kunden sich keine Sorgen machen müssen, dass ihre sensiblen Daten außerhalb ihres Rechenzentrums übertragen werden. Es gibt also keinerlei Auswirkungen auf die Produktionsinfrastruktur und die Anwendungen, einschließlich der Backups. Mit Rubrik Polaris lässt sich zudem die skalierbare Rechenleistung der Public Cloud nutzen und gleichzeitig ein Ansatz verfolgen, bei dem die Sicherheit der Daten an erster Stelle steht.

Training des Modells
Sobald die FMDs in Rubrik Polaris gelandet sind, nutzt Rubrik ein tiefes neuronales Netzwerk (Deep Neural Network, DNN), um einen vollständigen Überblick über den Workload zu erhalten. Das DNN wird mit Hilfe von überwachtem Lernen trainiert, das darin besteht, einem maschinellen Lernmodell markierte Daten zu präsentieren, um ihm ein Trainingssignal zu geben, aus dem es lernen kann.

Das DNN ist dann in der Lage, Trends zu erkennen, die in allen Stichproben vorhanden sind, und neue Daten anhand ihrer Ähnlichkeiten zu klassifizieren, ohne dass menschliche Eingaben erforderlich sind. Dies ist vergleichbar mit dem System, das immer mehr Hundebilder sieht und diese zusätzlichen Datenpunkte nutzt, um mit der Zeit immer genauer zu werden.

Wie entscheidet das DNN letztendlich, ob ein Ransomware-Angriff stattgefunden hat. Das DNN analysiert Daten über eine Pipeline für maschinelles Lernen für Rubrik Polaris Radar, die aus zwei Modellen besteht: einem Modell zur Erkennung von Anomalien und einem Modell zur Erkennung von Verschlüsselung.

Dateisystem-Verhaltensanalyse: Führt eine Verhaltensanalyse der Metadaten des Dateisystems durch, indem Elemente wie die Anzahl der hinzugefügten Dateien, die Anzahl der gelöschten Dateien usw. untersucht werden.
Analyse des Dateiinhalts: Wenn im vorherigen Schritt eine Anomalie festgestellt wird, führt Radar eine Analyse durch, um festzustellen, ob es einen charakteristischen starken Anstieg der Dateientropie gibt, der auf einen Ransomware-Angriff hinweist.

Insgesamt zeichnet sich diese Pipeline durch die Erstellung einer historischen Basislinie aus, die im Laufe der Zeit verfeinert wird. Wenn eine Anomaliewarnung generiert wird, kann Radar den Inhalt der Dateien eingehender untersuchen, um nach Anzeichen für eine Verschlüsselung zu suchen und mithilfe eines statistischen Modells eine Verschlüsselungswahrscheinlichkeit zu berechnen. Auf diese Weise kann die Analysepipeline Entropiemerkmale berechnen, um den Grad der Verschlüsselung im Dateisystem effizient zu messen.

Testen bekannter Live-Ransomware-Samples
Das Erkennungsmodell von Radar wurde trainiert, validiert und anhand einer großen Menge an markierten Daten aus der realen Welt getestet. Diese enthalten eine vielfältige Mischung aus Snapshots aus der realen Nutzung, der simulierten Nutzung und Snapshot-Änderungen durch verschiedene Ransomware und gefährliche Aktivitäten.

Für die Pipeline des maschinellen Lernens folgt Rubrik der Standardpraxis, die markierten Daten in drei Kategorien zu unterteilen: Training, Validierung und Test. Auf diese Weise lässt sich sicherstellen, dass das Modell nicht zu sehr an die Testdaten angepasst wurde. Die Trainings- und Validierungssätze werden zur Optimierung des Modells verwendet, während die Testdaten zur Bewertung des Modells anhand von nicht gesehenen Daten dienen.

Fazit
Schon vor der heutigen rasanten Verbreitung von Ransomware hatte Rubrik es sich zur Aufgabe gemacht, Kunden bei der Wiederherstellung nach Ransomware-Angriffen zu helfen. Mittels einer Backup-Lösung kann Ransomware im Idealfall auf eine kleine Unannehmlichkeit reduziert werden. Da Ransomware immer ausgeklügelter wird und sich weiter anpasst, werden erfolgreiche Angriffe immer wahrscheinlicher. Rubrik Polaris Radar, das auf maschinellem Lernen basiert, soll es Unternehmen ermöglichen, automatisch auf aktuelle Bedrohungen zu reagieren und so die Wiederherstellung zu beschleunigen sowie Geschäftsunterbrechungen und Datenverluste zu minimieren.

dr

[1] www.rubrik.com