Fachartikel

Vom Data Lake zum Data Mesh

Ist die nächste große Veränderung im Bereich Daten das Data Mesh? Darunter versteht man eine Datenplattform-Architektur, die sich die Allgegenwart von Informationen in Unternehmen zunutze macht und sie Anwendern über eine Self-Service-Infrastruktur dort bereitstellt, wo sie sich befinden. Umwege über ein zentrales Data Warehouse oder einen Data Lake gehören damit der Vergangenheit an. Die Umstellung erfordert von den Mitarbeitern eine neue Sichtweise auf ihre Daten: als Produkt, das sie verwalten, besitzen und bereitstellen.
Im Data Mesh verbleiben Daten dezentral bei den Teams, die sie sammeln.
Inzwischen haben wohl die meisten, wenn nicht alle Unternehmen verstanden, dass sie ihre Daten besser nutzen müssen. Daher sind in den letzten Jahren zentrale und immer größer werdende Data Repositories entstanden – Data Warehouses und Data Lakes. Aber ist dieser zentrale Ansatz wirklich der richtige Weg oder bietet eine dezentrale Architektur nicht mehr Vorteile?

Fortschritte im Bereich der Datenverarbeitung vollziehen sich oft rasant – und aktuell zeichnet sich ab, dass ein neues Konzept die derzeit vorherrschenden Datenplattform-Architekturen ablösen könnte: Data Mesh. Dieser Ansatz macht sich die Allgegenwart von Daten in Unternehmen zunutze, ohne sie zuerst an einem zentralen Ort zusammenzuführen.

Herausforderungen monolithischer Datenplattformen
In einer monolithischen Architektur werden Daten aus allen Systemen eines Unternehmens gesammelt und zentral gespeichert. Das betrifft operative und aufeinander aufbauende Systeme und Domänen, die für den Geschäftsbetrieb entscheidend sind, sowie Daten von externen Anbietern, durch die das Unternehmen zusätzliche Informationen erhält. Im Data Repository werden die Quelldaten bereinigt und aufbereitet, damit sie sich im Anschluss als qualitativ hochwertige Daten von Datenkonsumenten weiterverarbeiten lassen, zum Beispiel für Analysen oder zur Nutzung in Business-Intelligence-Tools.

Informationen finden also an einem zentralen Ort zusammen, beispielsweise in Form eines Data Warehouse oder eines Data Lake. Daraus können jedoch mehrere Probleme entstehen:

  • Datenquellen: Die Annahme, dass Daten erst an einem Ort erfasst werden müssen, um daraus einen Nutzen zu ziehen, schränkt die Reaktionsfähigkeit bei einer steigenden Anzahl von Datenquellen ein, zumal dieser Prozess jedes Mal Zeit in Anspruch nimmt. Je mehr Informationen aus internen und externen Quellen im Repository zusammenlaufen, desto schwieriger gestaltet es sich, die Kontrolle über sie zu behalten.
  • Datenherkunft: Damit Daten als vertrauenswürdig gelten können, gilt es, ihre Herkunft und jegliche Veränderungen sorgfältig zu dokumentieren. Aus welchem System stammen sie? Wann wurden sie von wem wie verändert? In einem zentralen Repository ist es aufgrund der schieren Menge an Daten als auch der Geschwindigkeit, mit der sich die Daten verändern, eine Herausforderung, die Datenherkunft jederzeit vollständig nachzuvollziehen.
  • Anwendungsfälle: Unternehmen finden immer mehr Anwendungsfälle für ihre Daten. Damit steigt aber die Notwendigkeit, die Daten immer wieder neu zu transformieren, um sie für den jeweiligen Use Case aufzubereiten. Die Folge sind lange Wartezeiten für die Datenkonsumenten.
Anwender als Datenkonsumenten
Mit einem Data-Mesh-Ansatz lassen sich diese Probleme lösen beziehungsweise von vornherein vermeiden. Im Grunde ist Data Mesh ein Paradigmenwechsel: Daten werden nicht mehr als Asset betrachtet, sondern als Produkt gemanagt. An die Stelle eines zentralen Datenspeichers tritt eine verteilte Architektur. In dieser gilt das Team, das die Daten sammelt und speichert, als Data Owner. Es stellt sie als Datenprodukte in leicht konsumierbaren Formen für andere Nutzer bereit, die über Self-Service-Optionen auf diese zurückgreifen.

Data Mesh bietet Unternehmen einige Vorteile gegenüber einer monolithischen Datenplattform. Vor allem ermöglicht es das Konzept, mehr Nutzen aus den bereits vorhandenen Daten zu ziehen. Diejenigen, die für die Daten verantwortlich sind, sind gleichzeitig auch diejenigen, die diese Daten am besten kennen. Entsprechend fällt es ihnen leichter, wichtige Erkenntnisse aus den Daten zu ziehen oder neue Anwendungsfälle zu identifizieren, damit das Unternehmen seinen Kunden beispielsweise neue Produkte, Funktionen oder Services anbieten kann.

Dabei arbeiten sie mit Data Scientists, Data Engineers oder Machine Learning Engineers, die für die weiteren Schritte verantwortlich sind, in einem cross-funktionalen Team zusammen. So lässt sich der Datenverarbeitungsprozess optimieren, denn das Domänenwissen hält direkt von Anfang Einzug in diesen Prozess.

Achtung bei der Implementierung
Ein Data-Mesh-Ansatz kann für jedes Unternehmen empfehlenswert sein, insbesondere solche mit mehreren Domänen, einer großen Anzahl an Datenquellen und einer Vielzahl von Datenkonsumenten. Bei der Umsetzung sollten jedoch einige Faktoren berücksichtigt werden.

Ein Unternehmen braucht zunächst ein zentrales Data-Governance-Modell, um Chaos zu verhindern. Damit das Mesh funktioniert, muss jede Domäne einer Reihe von zentral verwalteten Richtlinien und Standards folgen, die festlegen, wie die Daten der Domänen kategorisiert, verwaltet und abgerufen werden. Dadurch weisen die Daten auch ein hohes Maß an Interoperabilität auf, sodass Datenkonsumenten ohne Probleme mit verschiedenen Datenprodukten aus dem gesamten Unternehmen ihren Anforderungen entsprechend arbeiten können.

Der nächste Schritt definiert die Data Domain Owner, die am Ende für die Datenprodukte verantwortlich sein werden, und erstellt einen Datenkatalog, in dem alle vorhandenen Datenprodukte verzeichnet sind. Dadurch sind sie für die Konsumenten leicht auffindbar, einschließlich aller weiteren wichtigen Informationen wie der Datenherkunft und Beispieldatensätzen. Statt einem zentralen Speicher, in dem alle Daten enthalten sind, entsteht so eine zentrale Möglichkeit, alle Datenprodukte zu finden und sie autonom zu nutzen.

Gleichzeitig müssen die Data Owner ihre Datenprodukte schon bei deren Entwicklung bereinigen und eine hohe Datenintegrität sicherstellen, um eine akzeptable Qualität zu erreichen. Damit, und mit der Bereitstellung der Datenherkunft als Metadaten, steigern sie das Vertrauen der Datenkonsumenten in die Qualität und die Eignung der Datenprodukte für ihre spezifischen Zwecke.

Fazit
Die monolithische Datenplattform-Architektur kommt in vielen Unternehmen langsam an ihre Grenzen, da die Menge an Daten, Datenquellen und Anwendungsfällen immer weiter zunimmt. Mit Data Mesh lässt sich diese Herausforderung meistern, indem auf ein zentrales Data Repository verzichtet wird. Stattdessen verbleiben die Daten dezentral bei den Teams, die sie sammeln. Als Datenprodukte aufbereitet stehen sie allen Datenkonsumenten als Self-Service-Option zur Verfügung und lassen sich von jedem einfach und schnell ganz nach Bedarf verwenden.
2.03.2022/ln/Adriana Calomfirescu, Group Head of Data Delivery bei Endava

Nachrichten

Dell unterzieht Speichersysteme umfrangreichem Softwareupdate [4.05.2022]

Auf der Dell Technologies World 2022 in Las Vegas hat der Hersteller ein umfangreiches Softwareupdate seines Storage-Portfolios vorgestellt. Insgesamt will Dell über 500 neue Features in seine Produktlinien PowerStore, PowerMax und PowerFlex integriert haben. Entscheidende Neuerungen gibt es in den Bereichen VMware-Integration, Cyberresilienz und File-Services. [mehr]

KMU-Datenlager [31.03.2022]

Dell Technologies stellt mit der Serie Dell PowerVault ME5 drei neue Geräte für SAN und DAS in kleinen und mittelständischen Unternehmen vor. Für die unkomplizierte Verwaltung dieser Speicherboliden soll insbesondere der PowerVault Manager sorgen. [mehr]

Simpel sichern [29.03.2022]

Tipps & Tools

Automatisierung bei der Storage-Verwaltung [21.04.2022]

Damit beispielsweise Migrationsprojekte im PByte-Bereich nicht Jahre dauern, werden Prozesse im Speicherumfeld heutzutage immer stärker automatisiert – das gilt genauso für Umzugsprozesse selbst wie für das Datenmanagement. Lesen Sie in unserem Fachartikel unter anderem, wie sich dabei Fehler vermeiden lassen. [mehr]

Sicherer, kostenfreier Peer-to-Peer-Datentransfer [25.02.2022]

Zwar existieren für die Alltagsaufgabe sicherer Datentransfer bereits viele Hilfsmittel. Doch die meisten von ihnen weisen Nachteile auf wie einen lästigen Registrierungszwang oder die Praxis, die ihnen anvertrauten Daten zwischenzuspeichern. Die kostenfrei nutzbare Website "ToffeeShare" will hingegen für ihre im Peer-to-Peer-Verfahren durchgeführten Datenübertragungen auf unnötige Zwischenstopps verzichten und stattdessen den kürzesten Weg zwischen Sender und Empfänger finden. [mehr]

Buchbesprechung

Datenschutz im Unternehmen

von Michael Wächter

Anzeigen