Vom Data Lake zum Data Mesh

Lesezeit
3 Minuten
Bis jetzt gelesen

Vom Data Lake zum Data Mesh

02.03.2022 - 14:00
Veröffentlicht in:
Ist die nächste große Veränderung im Bereich Daten das Data Mesh? Darunter versteht man eine Datenplattform-Architektur, die sich die Allgegenwart von Informationen in Unternehmen zunutze macht und sie Anwendern über eine Self-Service-Infrastruktur dort bereitstellt, wo sie sich befinden. Umwege über ein zentrales Data Warehouse oder einen Data Lake gehören damit der Vergangenheit an. Die Umstellung erfordert von den Mitarbeitern eine neue Sichtweise auf ihre Daten: als Produkt, das sie verwalten, besitzen und bereitstellen.
Inzwischen haben wohl die meisten, wenn nicht alle Unternehmen verstanden, dass sie ihre Daten besser nutzen müssen. Daher sind in den letzten Jahren zentrale und immer größer werdende Data Repositories entstanden – Data Warehouses und Data Lakes. Aber ist dieser zentrale Ansatz wirklich der richtige Weg oder bietet eine dezentrale Architektur nicht mehr Vorteile?

Fortschritte im Bereich der Datenverarbeitung vollziehen sich oft rasant – und aktuell zeichnet sich ab, dass ein neues Konzept die derzeit vorherrschenden Datenplattform-Architekturen ablösen könnte: Data Mesh. Dieser Ansatz macht sich die Allgegenwart von Daten in Unternehmen zunutze, ohne sie zuerst an einem zentralen Ort zusammenzuführen.

Herausforderungen monolithischer Datenplattformen
In einer monolithischen Architektur werden Daten aus allen Systemen eines Unternehmens gesammelt und zentral gespeichert. Das betrifft operative und aufeinander aufbauende Systeme und Domänen, die für den Geschäftsbetrieb entscheidend sind, sowie Daten von externen Anbietern, durch die das Unternehmen zusätzliche Informationen erhält. Im Data Repository werden die Quelldaten bereinigt und aufbereitet, damit sie sich im Anschluss als qualitativ hochwertige Daten von Datenkonsumenten weiterverarbeiten lassen, zum Beispiel für Analysen oder zur Nutzung in Business-Intelligence-Tools.

Informationen finden also an einem zentralen Ort zusammen, beispielsweise in Form eines Data Warehouse oder eines Data Lake. Daraus können jedoch mehrere Probleme entstehen:

  • Datenquellen: Die Annahme, dass Daten erst an einem Ort erfasst werden müssen, um daraus einen Nutzen zu ziehen, schränkt die Reaktionsfähigkeit bei einer steigenden Anzahl von Datenquellen ein, zumal dieser Prozess jedes Mal Zeit in Anspruch nimmt. Je mehr Informationen aus internen und externen Quellen im Repository zusammenlaufen, desto schwieriger gestaltet es sich, die Kontrolle über sie zu behalten.
  • Datenherkunft: Damit Daten als vertrauenswürdig gelten können, gilt es, ihre Herkunft und jegliche Veränderungen sorgfältig zu dokumentieren. Aus welchem System stammen sie? Wann wurden sie von wem wie verändert? In einem zentralen Repository ist es aufgrund der schieren Menge an Daten als auch der Geschwindigkeit, mit der sich die Daten verändern, eine Herausforderung, die Datenherkunft jederzeit vollständig nachzuvollziehen.
  • Anwendungsfälle: Unternehmen finden immer mehr Anwendungsfälle für ihre Daten. Damit steigt aber die Notwendigkeit, die Daten immer wieder neu zu transformieren, um sie für den jeweiligen Use Case aufzubereiten. Die Folge sind lange Wartezeiten für die Datenkonsumenten.


Anwender als Datenkonsumenten
Mit einem Data-Mesh-Ansatz lassen sich diese Probleme lösen beziehungsweise von vornherein vermeiden. Im Grunde ist Data Mesh ein Paradigmenwechsel: Daten werden nicht mehr als Asset betrachtet, sondern als Produkt gemanagt. An die Stelle eines zentralen Datenspeichers tritt eine verteilte Architektur. In dieser gilt das Team, das die Daten sammelt und speichert, als Data Owner. Es stellt sie als Datenprodukte in leicht konsumierbaren Formen für andere Nutzer bereit, die über Self-Service-Optionen auf diese zurückgreifen.

Data Mesh bietet Unternehmen einige Vorteile gegenüber einer monolithischen Datenplattform. Vor allem ermöglicht es das Konzept, mehr Nutzen aus den bereits vorhandenen Daten zu ziehen. Diejenigen, die für die Daten verantwortlich sind, sind gleichzeitig auch diejenigen, die diese Daten am besten kennen. Entsprechend fällt es ihnen leichter, wichtige Erkenntnisse aus den Daten zu ziehen oder neue Anwendungsfälle zu identifizieren, damit das Unternehmen seinen Kunden beispielsweise neue Produkte, Funktionen oder Services anbieten kann.

Dabei arbeiten sie mit Data Scientists, Data Engineers oder Machine Learning Engineers, die für die weiteren Schritte verantwortlich sind, in einem cross-funktionalen Team zusammen. So lässt sich der Datenverarbeitungsprozess optimieren, denn das Domänenwissen hält direkt von Anfang Einzug in diesen Prozess.

Achtung bei der Implementierung
Ein Data-Mesh-Ansatz kann für jedes Unternehmen empfehlenswert sein, insbesondere solche mit mehreren Domänen, einer großen Anzahl an Datenquellen und einer Vielzahl von Datenkonsumenten. Bei der Umsetzung sollten jedoch einige Faktoren berücksichtigt werden.

Ein Unternehmen braucht zunächst ein zentrales Data-Governance-Modell, um Chaos zu verhindern. Damit das Mesh funktioniert, muss jede Domäne einer Reihe von zentral verwalteten Richtlinien und Standards folgen, die festlegen, wie die Daten der Domänen kategorisiert, verwaltet und abgerufen werden. Dadurch weisen die Daten auch ein hohes Maß an Interoperabilität auf, sodass Datenkonsumenten ohne Probleme mit verschiedenen Datenprodukten aus dem gesamten Unternehmen ihren Anforderungen entsprechend arbeiten können.

Der nächste Schritt definiert die Data Domain Owner, die am Ende für die Datenprodukte verantwortlich sein werden, und erstellt einen Datenkatalog, in dem alle vorhandenen Datenprodukte verzeichnet sind. Dadurch sind sie für die Konsumenten leicht auffindbar, einschließlich aller weiteren wichtigen Informationen wie der Datenherkunft und Beispieldatensätzen. Statt einem zentralen Speicher, in dem alle Daten enthalten sind, entsteht so eine zentrale Möglichkeit, alle Datenprodukte zu finden und sie autonom zu nutzen.

Gleichzeitig müssen die Data Owner ihre Datenprodukte schon bei deren Entwicklung bereinigen und eine hohe Datenintegrität sicherstellen, um eine akzeptable Qualität zu erreichen. Damit, und mit der Bereitstellung der Datenherkunft als Metadaten, steigern sie das Vertrauen der Datenkonsumenten in die Qualität und die Eignung der Datenprodukte für ihre spezifischen Zwecke.

Fazit
Die monolithische Datenplattform-Architektur kommt in vielen Unternehmen langsam an ihre Grenzen, da die Menge an Daten, Datenquellen und Anwendungsfällen immer weiter zunimmt. Mit Data Mesh lässt sich diese Herausforderung meistern, indem auf ein zentrales Data Repository verzichtet wird. Stattdessen verbleiben die Daten dezentral bei den Teams, die sie sammeln. Als Datenprodukte aufbereitet stehen sie allen Datenkonsumenten als Self-Service-Option zur Verfügung und lassen sich von jedem einfach und schnell ganz nach Bedarf verwenden.

ln/Adriana Calomfirescu, Group Head of Data Delivery bei Endava

Tags

Ähnliche Beiträge

Drei zentrale Herausforderungen für das Datenmanagement

Daten sind ein unverzichtbarer Vermögenswert für Unternehmen geworden. Für ITAdministratoren bedingt dies, neben fundamentalen Datenmanagement-Anforderungen, Veränderungen in den Bereichen Organisationsstruktur, Kultur und Leadership sowie Rollen und Skills voranzutreiben. Der Fachartikel zählt die drei größten Herausforderungen auf, vor denen Organisationen in Bezug auf Datenmanagement stehen.

Im Test: Power Admin Storage Monitor 9.3

Eine effiziente Planung der Storage-Landschaft und ihrer Verfügbarkeit setzt detailliertes Wissen über Beschaffenheit und Alter der gespeicherten Daten voraus. Power Admin Storage Monitor verspricht, den Datenbestand umfassend zu analysieren, laufend zu überwachen und automatisch auf Ereignisse zu reagieren. Dabei liegt der Schwerpunkt auf Windows, doch das flexible Tool bindet auch andere Speicher im Netzwerk per SNMP an.

All-Flash-Rechenzentrum beim Bio-Großhändler

Seit vielen Jahren arbeiten Storage-Anbieter daran, All-Flash-Systeme so zu konzipieren, dass sie sich nicht nur für Tier-1-Anwendungen, sondern zur Speicherung aller Daten im Rechenzentrum verwenden lassen. Das Ziel, dessen Erreichung vor allem die Anschaffungskosten im Weg standen, lautete: All-Flash-Data Center. Wie sieht es in der Praxis aus? Ein deutsches Handelsunternehmen berichtet erstmals über seine Alltagserfahrungen.