Fachartikel

Seite 2 - Machine Learning in Web Application Firewalls

Die richtige Aggregationsstufe
WAFs treffen typischerweise Entscheidungen basierend auf einzelnen Requests oder einer Gruppe solcher Anfragen, beispielsweise alle Requests innerhalb einer HTTP-Session oder von derselben Source-IP-Adresse. Bei der Betrachtung einer Gruppe von Anfragen innerhalb einer HTTP-Session lassen sich interessante Eigenschaften definieren und statistisch untersuchen. Zum Beispiel ist die Wahrscheinlichkeit einer bestimmten Folge von HTTP-Requests innerhalb einer Session auslesbar.

Die typischen Folgen werden meist vom gewünschten Benutzerverhalten dominiert. Untypische Folgen deuten auf unerwünschte Aktivitäten wie einen Web-Crawler hin, der die Links in einer unüblichen Reihenfolge aufruft. Eine Schwierigkeit beim Session-Scope besteht darin, während eines Angriffs früh Gegenmaßnahmen wie das Blockieren der Session auszulösen. Ein weiteres Problem ist, dass Angreifer ihre Attacken auf mehrere Sessions verteilen können. Dies ist insbesondere bei öffentlich zugänglichen Webapplikationen einfach möglich.

Machine Learning braucht Engineering
Um eine unerwünschte HTTP-Session mittels ML-basierten Methoden zu erkennen, gilt es zunächst, entsprechende Features zu definieren (Feature Engineering). Dabei werden aus den zugrundeliegenden Daten wichtige Attribute abstrahiert, aufgrund derer das Modell später Vorhersagen trifft. Dieser Schritt ist zentral für den Erfolg. Beispiele für solche Features in Webverkehr sind Verteilungen der Zeitabstände von Requests, HTTP-Objekt-Größen oder die Verteilung von HTTP-Status-Codes. Aus einzelnen Basisattributen in den Rohdaten wie zum Beispiel Timestamps lassen sich über mehrere Schritte komplexere Features konstruieren. Anschließend werden, basierend auf diesen Features, geeignete ML-Modelle ausgewählt, konfiguriert und trainiert.

Durch geeignete Kombination verschiedener Modelle entsteht nun ein System, das in der Lage ist, bestimmte Auffälligkeiten einer Websession zu identifizieren. Dieses System kann Fragen beantworten, wie: Wurden einzelne Requests innerhalb der Session durch eine Person ausgeführt oder war ausschließlich eine Software beteiligt? Handelt es sich um einen gewöhnlichen Benutzer oder deutete sein Verhalten auf einen Hacker hin? Falls die Requests von einer Software ausgelöst wurden: Handelt es sich um eine legitime Suchmaschine, ein Monitoringtool oder möglicherweise um einen unerwünschten Site-Crawler, Bot – oder sogar ein Attack-Tool?

Jede Webapplikation lässt sich dabei mit einem eigenen Modell trainieren und schützen. Somit kann eine bestimmte Anomalie in einer Applikation ein gewöhnliches Verhalten in einer anderen Applikation sein. Dies ist ein weiterer Vorteil einer Web Application Firewall mit Machine Learning an Bord, gegenüber statischen Sicherheitsfunktionen, die nur mit viel Aufwand für jede Webanwendung unterschiedlich konfigurierbar und optimierbar ist. Beim Trainieren der Modelle ist zudem darauf zu achten, dass der Angreifer keinen Einfluss auf die Trainingsphase nehmen kann oder dass die Modelle mit solchen unerwünschten Daten umgehen können.
Kein Schwarz-Weiß-Denken
Im Gegensatz zu klassischen, regelbasierten Systemen liefern Machine-Learning-Modelle keine Schwarz-Weiß-Antworten sondern Wahrscheinlichkeitsverteilungen. Aktionen sind nun in Abhängigkeit dieser Verteilung auslösbar. Eine Session-Terminierung oder das zeitliche Blockieren einer Source-IP soll in der Regel nur dann geschehen, wenn ein Angriff eine hohe Wahrscheinlichkeit hat. Andere Aktionen wie das Einblenden eines CAPTCHAs sollen dagegen nur erfolgen, wenn Requests mit hoher Wahrscheinlichkeit automatisiert ausgelöst wurden, zum Beispiel von einem Bot. Ist die Unsicherheit zu hoch, so lassen sich Session-Details lediglich loggen oder an ein Zusatzsystem etwa für Fraud Detection für zusätzliche Analysen und Entscheidungen weiterleiten.

Sicherheit von ML-basierten Systemen
Da ML-Modelle heute in sehr kritischen Systemen wie selbstfahrenden Autos zum Einsatz kommen, in welchen falsche Entscheidungen fatale Folgen haben können, erfolgt seit einigen Jahren vermehrt Forschung zum Thema der Robustheit dieser Modelle. Obwohl sich Straßenschilder ohne Probleme während einer sehr hohen Genauigkeit erkennen lassen, wurde gezeigt, dass bei weniger robusten Modellen ein Angreifer durch kaum sichtbare Veränderungen eines Stopp-Straßenschildes, das System dazu bringen kann, dieses Schild als "Höchstgeschwindigkeit 80 km/h" zu klassifizieren.

Diese Frage nach der Robustheit eines ML-Modells wird in vielen Projekten außer Acht gelassen. Es ist offensichtlich, dass im Sicherheitsumfeld diese Modelleigenschaft relevant ist. Eine relativ einfache Möglichkeit die Modelle robuster gegen solche Angriffe zu machen, lautet, diese zusätzlich mit entsprechenden Angriffsbeispielen (Perturbed Train Data) zu trainieren.

Fazit
Das Potenzial von ML-Modellen in Sicherheitsprodukten wie WAFs ist groß. Auf Statistik basierende Lösungsansätze bringen aber neue Risiken mit sich. Die Kunst dabei ist, zu erkennen, in welchen Bereichen die Systeme einen tatsächlichen Mehrwert liefern und wie diese dafür im Detail gestaltet werden müssen, um Anforderungen an Sicherheit und insbesondere Betriebsamkeit zu erfüllen. Fundiertes Fachwissen im Bereich der Applikationssicherheit sowie des Machine Learning ist dabei zentral für den Erfolg eines solchen Projekts.


<< Vorherige Seite Seite 2 von 2
10.02.2021/ln/Reto Ischi, Head of Research and Development bei Airlock WAF

Nachrichten

Cloudumgebungen zunehmend im Visier [1.03.2021]

Der neue Threat Trends Report des Varonis Forensik-Teams zeigt die aktuellen Bedrohungen für Unternehmen und Organisationen auf. Die Ergebnisse basieren dabei auf durchgeführten Vorfallsreaktionen, forensischen Untersuchungen und Reverse Engineering von Malware und zeigen eine große Bandbreite an Techniken und Zielen auf: So verdreifachten sich im Vergleich zum Ende des Jahres 2020 Cloudangriffe von neun auf gegenwärtig 29 Prozent. [mehr]

Schutzschild für die Cloud [22.02.2021]

Die neueste Version von Tufin SecureCloud unterstützt nun auch die Google Cloud-Plattform und bietet den Kunden so die Möglichkeit, Compliance-Richtlinien zu definieren und zu überwachen. Mit Amazon Web Services, Microsoft Azure sowie der Cloud-Plattform von Google unterstützt Tufin fortan die drei führenden Cloudanbieter, was vor allem Unternehmen mit Multi-Cloud-Strategie nützt. [mehr]

Tipps & Tools

Jetzt bestellen: Sonderheft vSphere 7 [1.03.2021]

Das erste IT-Administrator Sonderheft 2021 liefert unter dem Titel "VMware vSphere 7 – Server, Netze und Storage virtualisieren" auf 180 Seiten Know-how zur Planung, Verwaltung und Absicherung der neuen vSphere-Version. Nach einer Übersicht der Lizenzformen und Gedanken zum Sizing der vSphere-Landschaft widmet sich das Autorenteam unter anderem ausführlich Fragen der Migration. Das Sonderheft erscheint im April – wenn Sie bis einschließlich 15. März ein Upgrade auf das All-Inclusive-Jahresabo durchführen oder dieses neu abschließen, ist das neue Sonderheft bereits enthalten. [mehr]

Im Test: Veeam Availability Suite 11 [28.01.2021]

Die Datensicherungssoftware Veeam Backup & Replication als Hauptbestandteil der Availability Suite ist seit Jahren bei KMU weit verbreitet. Zusätzliche Anforderungen wie der Betrieb in der Cloud und der Einsatz auf verschiedenen Virtualisierungsplattformen verlangen immer wieder Funktionserweiterungen. Sehr interessant für Multiplattform- und Cloudumgebungen sind die Möglichkeiten zur VM-Migration und -Konvertierung. Gut gefallen in Version 11 hat uns außerdem die CDP-Funktion, um bei einem Ausfall einen Failover mit nur minimalem Datenverlust zu realisieren. [mehr]

Ein frohes Neues! [1.01.2021]

Buchbesprechung

Computernetze und Internet of Things

von Patrick-Benjamin Bök, Andreas Noack, Marcel Müller

Anzeigen