Wildwuchs bei Datenbanken begrenzen

17.03.2021 - 14:00

Veröffentlicht in:

Fachartikel

Datenintensive Trends wie Big Data oder Industrial IoT bewirken eine heterogene Datenbankinfrastruktur. Dadurch gestaltet sich die Administration komplex: Für skalierende Datenanalysen gibt es NoSQL, das IIoT fordert neben relationalen Datenbanken zusätzlich eine Time-Series-Datenbank, einige Anwendungen haben proprietäre Formate – ein Datenbankzoo, der sich in vielen Unternehmen findet. Oft verteilen sich die Systeme auf unterschiedliche Orte, etwa lokal im Betrieb, das eigene Rechenzentrum oder verschiedene Clouds. Der Artikel skizziert, wie eine Konsolidierung möglich ist.

Eine heterogene Datenbankinfrastruktur muss gepflegt und administriert werden. Das gerät zu einer komplexen Aufgabe, da es oft pro System ein eigenes Werkzeug gibt und meist Experten für jedes einzelne braucht. Die Tools unterscheiden sich in der Benutzeroberfläche und dem Funktionsumfang. Auch der SQL-Standard ist hier keine große Hilfe, da die meisten skalierenden Datenbanksysteme ihn gar nicht unterstützen.

Datenbankzoo macht ineffizient
Die Konsequenz: Die Admins müssen sich in jede neue Datenbank einarbeiten. Doch das reicht vielfach nicht aus. Neue Versionen bringen neue Konzepte und Funktionen. Neue Tools und Benutzeroberflächen erfordern Schulung – oder zumindest ein paar Stunden Handbuchlektüre. Das vergrößert den Arbeitsaufwand für die Admins. In den meisten Fällen konzentriert sich ein Mitarbeiter nur auf wenige oder sogar nur eine Plattform. Dadurch wächst der Personalbedarf.

Ein zweites Problem von heterogenen Datenbankinfrastrukturen ist die aufwendige Fehlersuche. Nicht immer lassen sich Datenfehler auf Anhieb einer Plattform zuordnen. Ein Beispiel: Bei Problemen mit Sensordaten aus dem Industrial IoT können Fehler in der Time Series Database (TSDB), den aggregierten NoSQL-Daten oder nach der Datenanalyse im Data Warehouse entstehen. Wenn offensichtliche Inkonsistenzen passieren, gilt es, alle drei Datenbanksysteme genauer zu untersuchen.

Konsolidierung gibt mehr Überblick
Diese Probleme können IT-Verantwortliche umgehen, indem sie Datenbanken und Daten konsolidieren. Wichtig dabei: Dies sind zwei unterschiedliche Prozesse. Die Datenkonsolidierung erfordert direkte Eingriffe in die Daten, um beispielsweise Dubletten zu beseitigen, Inkonsistenzen auszugleichen und Fehler zu bereinigen. Bei der Datenbankkonsolidierung dagegen werden die heterogenen Datenbankformate durch Vereinheitlichung und Integration in ein neues Datenbanksystem abgelöst.

Ein Beispiel: Viele Unternehmen speichern die Echtzeitdaten aus dem Industrial IoT zunächst in einer TSDB. In einem zweiten Schritt werden sie dann in Form von aggregierten Daten in ein NoSQL-System überführt, um sie leichter und schneller analysieren zu können. Grundsätzlich ist das nicht falsch, denn die jeweiligen Datenbanksysteme haben ihre eigenen Vorteile und Stärken. Doch es geht auch anders: Eine neue Generation an Datenbanken, speziell für Maschinendaten entwickelt, bietet hier völlig neue Optionen.

Beispielsweise verbindet CrateDB die Vorteile von NoSQL und TSDB, unterstützt aber gleichzeitig den SQL-Standard mit Postgres. Zudem hält sie die Daten auf einem leistungsfähigen und rasch skalierbaren Cluster in der Cloud vorrätig und unterstützt gleichzeitig lokalen Betrieb (EDGE). Die Speicherung der Daten erfolgt dadurch wesentlich effizienter und der Arbeitsaufwand für die Administration sinkt deutlich.

Nur eine statt drei Datenbanken
Vor allem gibt es auch betriebswirtschaftliche Vorteile: Durch die optimierte Architektur lassen sich Kostenersparnisse erzielen, weil weniger Server und Leistung nötig sind, um sogar bessere Ergebnisse zu erzielen. So lassen sich zwei oder gar drei Systemen auf eine Datenbank konsolidieren, die relationale und unstrukturierte Daten verarbeitet. Der SQL-Standard für alle Arten von Daten erlaubt den Einsatz bestehender Werkzeuge des eingelernten Teams und sehr leichte Integration beziehungsweise einfachen Austausch in Applikationen. Vorhandene Anwendungen lassen sich dabei weiter nutzen und der Austausch in andere Systeme gestaltet sich leicht.

Aus Anwendersicht ist ein solches Datenbanksystem einheitlicher und leichter zu bedienen, da es sich mit dem vertrauten SQL-Standard komplett nutzen lässt. Und zuletzt entsteht eine Kostensenkung innerhalb der internen IT: Entwickler arbeiten mit nur einer Datenbank und Admins jonglieren nicht mehr mit unterschiedlichen Systemen.

Der Weg zur erfolgreichen Konsolidierung
Die Vereinheitlichung von Datenbanksystemen und Datenbanken ist eine wichtige Voraussetzung, um überhaupt umfassend von aktuellen Trends wie dem Industrial IoT, Data Analytics oder Machine Learning zu profitieren. Allerdings erzeugt die Konsolidierung zunächst einmal selbst Aufwand. Damit ein entsprechendes Projekt nicht aus dem Ruder läuft, müssen Unternehmen ein klares Ziel für die Konsolidierung setzen: Welche Daten und welche Datenbanken lassen sich überhaupt konsolidieren? Geht es darum, übertriebenen Wildwuchs zu beseitigen oder soll das gesamte Unternehmen eine einheitliche Datenspeicherung erhalten? Solche Fragen gilt es zuerst zu beantworten.

Anschließend ist die technische Seite der Konsolidierung zu klären. Damit die Datenformate einheitlich sind, benötigt das Projekt Konnektoren zwischen Quell- und Zieldatenbank. Wenn sie fehlen, sollten zumindest auf beiden Seiten der Konsolidierungs-Pipeline Import/Export-Filter für ein gemeinsames Zwischenformat wie XML vorhanden sein. Dadurch ist es möglich, selbst exotische und ältere Datenformate in die Zieldatenbank zu importieren. Dank dem Standard SQL ist es jedoch in der Regel sehr einfach, verschiedene Systeme und deren Daten zu konsolidieren.

Händisch oder automatisch konsolidieren?
Als Methode für die Konsolidierung kommt üblicherweise ein ETL-Prozess (Extract, Transform, Load) zum Einsatz. Hinter dem Kürzel "Transform" verbirgt sich dann der Teil der Datenkonsolidierung, der sich algorithmisch gesteuert ausführen lässt, etwa die Konvertierung von Zeitangaben nach UTC, Zuordnung von Zeitreihendaten zu Produkt- oder Prozessinformationen oder auch nur die Beseitigung von Dubletten und Inkonsistenzen.

Abhängig von der Größe der Datenbanken und der verfügbaren Rechenleistung ist ferner die Frage der Automatisierung zu klären: Welche Teile der Daten können automatisch durch Skripte und welche müssen händisch konsolidiert werden? Eine Datenkonsolidierung wird immer manuelles Finetuning erfordern, das sollten Unternehmen bei der Budgetierung des Projekts berücksichtigen.

Fazit
Mit einer vorsichtigen und überlegten Vorgehensweise schließen Unternehmen ihre Konsolidierungsprojekte erfolgreich ab. Der Aufwand lohnt sich, denn eine neue Infrastruktur ist übersichtlicher für die Admins und damit letztlich effizienter in der Anwendung.

ln/Christian Lutz, Gründer und COO von Crate.io

Wildwuchs bei Datenbanken begrenzen

Wildwuchs bei Datenbanken begrenzen

Tags

Ähnliche Beiträge

Drei zentrale Herausforderungen für das Datenmanagement

Im Test: Power Admin Storage Monitor 9.3

All-Flash-Rechenzentrum beim Bio-Großhändler

Partner Links

Kontakt