Fachartikel

Vom Data Lake zum Data Mesh

Ist die nächste große Veränderung im Bereich Daten das Data Mesh? Darunter versteht man eine Datenplattform-Architektur, die sich die Allgegenwart von Informationen in Unternehmen zunutze macht und sie Anwendern über eine Self-Service-Infrastruktur dort bereitstellt, wo sie sich befinden. Umwege über ein zentrales Data Warehouse oder einen Data Lake gehören damit der Vergangenheit an. Die Umstellung erfordert von den Mitarbeitern eine neue Sichtweise auf ihre Daten: als Produkt, das sie verwalten, besitzen und bereitstellen.
Im Data Mesh verbleiben Daten dezentral bei den Teams, die sie sammeln.
Inzwischen haben wohl die meisten, wenn nicht alle Unternehmen verstanden, dass sie ihre Daten besser nutzen müssen. Daher sind in den letzten Jahren zentrale und immer größer werdende Data Repositories entstanden – Data Warehouses und Data Lakes. Aber ist dieser zentrale Ansatz wirklich der richtige Weg oder bietet eine dezentrale Architektur nicht mehr Vorteile?

Fortschritte im Bereich der Datenverarbeitung vollziehen sich oft rasant – und aktuell zeichnet sich ab, dass ein neues Konzept die derzeit vorherrschenden Datenplattform-Architekturen ablösen könnte: Data Mesh. Dieser Ansatz macht sich die Allgegenwart von Daten in Unternehmen zunutze, ohne sie zuerst an einem zentralen Ort zusammenzuführen.

Herausforderungen monolithischer Datenplattformen
In einer monolithischen Architektur werden Daten aus allen Systemen eines Unternehmens gesammelt und zentral gespeichert. Das betrifft operative und aufeinander aufbauende Systeme und Domänen, die für den Geschäftsbetrieb entscheidend sind, sowie Daten von externen Anbietern, durch die das Unternehmen zusätzliche Informationen erhält. Im Data Repository werden die Quelldaten bereinigt und aufbereitet, damit sie sich im Anschluss als qualitativ hochwertige Daten von Datenkonsumenten weiterverarbeiten lassen, zum Beispiel für Analysen oder zur Nutzung in Business-Intelligence-Tools.

Informationen finden also an einem zentralen Ort zusammen, beispielsweise in Form eines Data Warehouse oder eines Data Lake. Daraus können jedoch mehrere Probleme entstehen:

  • Datenquellen: Die Annahme, dass Daten erst an einem Ort erfasst werden müssen, um daraus einen Nutzen zu ziehen, schränkt die Reaktionsfähigkeit bei einer steigenden Anzahl von Datenquellen ein, zumal dieser Prozess jedes Mal Zeit in Anspruch nimmt. Je mehr Informationen aus internen und externen Quellen im Repository zusammenlaufen, desto schwieriger gestaltet es sich, die Kontrolle über sie zu behalten.
  • Datenherkunft: Damit Daten als vertrauenswürdig gelten können, gilt es, ihre Herkunft und jegliche Veränderungen sorgfältig zu dokumentieren. Aus welchem System stammen sie? Wann wurden sie von wem wie verändert? In einem zentralen Repository ist es aufgrund der schieren Menge an Daten als auch der Geschwindigkeit, mit der sich die Daten verändern, eine Herausforderung, die Datenherkunft jederzeit vollständig nachzuvollziehen.
  • Anwendungsfälle: Unternehmen finden immer mehr Anwendungsfälle für ihre Daten. Damit steigt aber die Notwendigkeit, die Daten immer wieder neu zu transformieren, um sie für den jeweiligen Use Case aufzubereiten. Die Folge sind lange Wartezeiten für die Datenkonsumenten.
Anwender als Datenkonsumenten
Mit einem Data-Mesh-Ansatz lassen sich diese Probleme lösen beziehungsweise von vornherein vermeiden. Im Grunde ist Data Mesh ein Paradigmenwechsel: Daten werden nicht mehr als Asset betrachtet, sondern als Produkt gemanagt. An die Stelle eines zentralen Datenspeichers tritt eine verteilte Architektur. In dieser gilt das Team, das die Daten sammelt und speichert, als Data Owner. Es stellt sie als Datenprodukte in leicht konsumierbaren Formen für andere Nutzer bereit, die über Self-Service-Optionen auf diese zurückgreifen.

Data Mesh bietet Unternehmen einige Vorteile gegenüber einer monolithischen Datenplattform. Vor allem ermöglicht es das Konzept, mehr Nutzen aus den bereits vorhandenen Daten zu ziehen. Diejenigen, die für die Daten verantwortlich sind, sind gleichzeitig auch diejenigen, die diese Daten am besten kennen. Entsprechend fällt es ihnen leichter, wichtige Erkenntnisse aus den Daten zu ziehen oder neue Anwendungsfälle zu identifizieren, damit das Unternehmen seinen Kunden beispielsweise neue Produkte, Funktionen oder Services anbieten kann.

Dabei arbeiten sie mit Data Scientists, Data Engineers oder Machine Learning Engineers, die für die weiteren Schritte verantwortlich sind, in einem cross-funktionalen Team zusammen. So lässt sich der Datenverarbeitungsprozess optimieren, denn das Domänenwissen hält direkt von Anfang Einzug in diesen Prozess.

Achtung bei der Implementierung
Ein Data-Mesh-Ansatz kann für jedes Unternehmen empfehlenswert sein, insbesondere solche mit mehreren Domänen, einer großen Anzahl an Datenquellen und einer Vielzahl von Datenkonsumenten. Bei der Umsetzung sollten jedoch einige Faktoren berücksichtigt werden.

Ein Unternehmen braucht zunächst ein zentrales Data-Governance-Modell, um Chaos zu verhindern. Damit das Mesh funktioniert, muss jede Domäne einer Reihe von zentral verwalteten Richtlinien und Standards folgen, die festlegen, wie die Daten der Domänen kategorisiert, verwaltet und abgerufen werden. Dadurch weisen die Daten auch ein hohes Maß an Interoperabilität auf, sodass Datenkonsumenten ohne Probleme mit verschiedenen Datenprodukten aus dem gesamten Unternehmen ihren Anforderungen entsprechend arbeiten können.

Der nächste Schritt definiert die Data Domain Owner, die am Ende für die Datenprodukte verantwortlich sein werden, und erstellt einen Datenkatalog, in dem alle vorhandenen Datenprodukte verzeichnet sind. Dadurch sind sie für die Konsumenten leicht auffindbar, einschließlich aller weiteren wichtigen Informationen wie der Datenherkunft und Beispieldatensätzen. Statt einem zentralen Speicher, in dem alle Daten enthalten sind, entsteht so eine zentrale Möglichkeit, alle Datenprodukte zu finden und sie autonom zu nutzen.

Gleichzeitig müssen die Data Owner ihre Datenprodukte schon bei deren Entwicklung bereinigen und eine hohe Datenintegrität sicherstellen, um eine akzeptable Qualität zu erreichen. Damit, und mit der Bereitstellung der Datenherkunft als Metadaten, steigern sie das Vertrauen der Datenkonsumenten in die Qualität und die Eignung der Datenprodukte für ihre spezifischen Zwecke.

Fazit
Die monolithische Datenplattform-Architektur kommt in vielen Unternehmen langsam an ihre Grenzen, da die Menge an Daten, Datenquellen und Anwendungsfällen immer weiter zunimmt. Mit Data Mesh lässt sich diese Herausforderung meistern, indem auf ein zentrales Data Repository verzichtet wird. Stattdessen verbleiben die Daten dezentral bei den Teams, die sie sammeln. Als Datenprodukte aufbereitet stehen sie allen Datenkonsumenten als Self-Service-Option zur Verfügung und lassen sich von jedem einfach und schnell ganz nach Bedarf verwenden.
2.03.2022/ln/Adriana Calomfirescu, Group Head of Data Delivery bei Endava

Nachrichten

Mehr Klarheit beim Backup [2.11.2022]

Die neue Version der NovaStor Backupsoftware soll die Sicherung in die Cloud durch mehr Automatisierung vereinfachen. Gleichzeitig gibt der Hersteller an, dass sich die Einrichtungszeit der Anwendung deutlich verkürzt. Im Bereich der Tape-Sicherung bildet NovaStor die Handhabung der Bandlaufwerke jetzt in der neuen Bedienoberfläche ab. [mehr]

Mehr Platz für Daten [18.10.2022]

Toshiba Electronics Europe kündigt die Einführung seiner neuen MG10-Serie mit "Conventional Magnetic Recording" und 20 TByte Größe an. Die Speicherkapazität der MG10 basiert auf einem Festplattendesign mit zehn magnetischen Scheiben und Heliumversiegelung. Sie nutzt zudem das "Flux Clontrol Microwave Assisted Magnetic Recording" von Toshiba. [mehr]

Tipps & Tools

Datensicherheit durch Backupmonitoring und -reporting [10.11.2022]

Administratoren für den Bereich Datensicherung haben zunehmend mit einer fragmentierten Umgebung zu kämpfen. Gleichzeitig erfüllen auch Backuptools die spezifischen Anforderungen bei Monitoring, Reporting und Audit häufig nicht lückenlos. Unser Fachartikel beschreibt die vielfältigen Probleme, die sich dadurch ergeben, und wie eine automatisierte Backupüberwachung Ordnung in das Chaos bringt. [mehr]

Im Test: Thomas-Krenn Open-E RA1112 Metro Cluster [27.10.2022]

Mit dem Open-E RA1112 (All-Flash) Metro Cluster hat Thomas-Krenn eine sehr kompakte Speicher-Appliance aufgelegt, die auf dem robusten ZFS-Dateisystem und dem bekannten Betriebssystem Open-E JovianDSS basiert. Dabei bilden zwei identische Server einen Metro Cluster, um durch einen synchronen Spiegelbetrieb eine hochverfügbare Datenhaltung zu gewährleisten. Wir haben uns diesen Server-Doppelpack im Labor genauer angesehen. [mehr]

Buchbesprechung

The Security Culture Playbook

von Perry Carpenter und Kai Roer

Anzeigen