Fachartikel

Wildwuchs bei Datenbanken begrenzen

Datenintensive Trends wie Big Data oder Industrial IoT bewirken eine heterogene Datenbankinfrastruktur. Dadurch gestaltet sich die Administration komplex: Für skalierende Datenanalysen gibt es NoSQL, das IIoT fordert neben relationalen Datenbanken zusätzlich eine Time-Series-Datenbank, einige Anwendungen haben proprietäre Formate – ein Datenbankzoo, der sich in vielen Unternehmen findet. Oft verteilen sich die Systeme auf unterschiedliche Orte, etwa lokal im Betrieb, das eigene Rechenzentrum oder verschiedene Clouds. Der Artikel skizziert, wie eine Konsolidierung möglich ist.
Ein Wildwuchs an Datenbanken macht dem Admin die Arbeit unnötig schwer.
Eine heterogene Datenbankinfrastruktur muss gepflegt und administriert werden. Das gerät zu einer komplexen Aufgabe, da es oft pro System ein eigenes Werkzeug gibt und meist Experten für jedes einzelne braucht. Die Tools unterscheiden sich in der Benutzeroberfläche und dem Funktionsumfang. Auch der SQL-Standard ist hier keine große Hilfe, da die meisten skalierenden Datenbanksysteme ihn gar nicht unterstützen.

Datenbankzoo macht ineffizient
Die Konsequenz: Die Admins müssen sich in jede neue Datenbank einarbeiten. Doch das reicht vielfach nicht aus. Neue Versionen bringen neue Konzepte und Funktionen. Neue Tools und Benutzeroberflächen erfordern Schulung – oder zumindest ein paar Stunden Handbuchlektüre. Das vergrößert den Arbeitsaufwand für die Admins. In den meisten Fällen konzentriert sich ein Mitarbeiter nur auf wenige oder sogar nur eine Plattform. Dadurch wächst der Personalbedarf.

Ein zweites Problem von heterogenen Datenbankinfrastrukturen ist die aufwendige Fehlersuche. Nicht immer lassen sich Datenfehler auf Anhieb einer Plattform zuordnen. Ein Beispiel: Bei Problemen mit Sensordaten aus dem Industrial IoT können Fehler in der Time Series Database (TSDB), den aggregierten NoSQL-Daten oder nach der Datenanalyse im Data Warehouse entstehen. Wenn offensichtliche Inkonsistenzen passieren, gilt es, alle drei Datenbanksysteme genauer zu untersuchen.

Konsolidierung gibt mehr Überblick
Diese Probleme können IT-Verantwortliche umgehen, indem sie Datenbanken und Daten konsolidieren. Wichtig dabei: Dies sind zwei unterschiedliche Prozesse. Die Datenkonsolidierung erfordert direkte Eingriffe in die Daten, um beispielsweise Dubletten zu beseitigen, Inkonsistenzen auszugleichen und Fehler zu bereinigen. Bei der Datenbankkonsolidierung dagegen werden die heterogenen Datenbankformate durch Vereinheitlichung und Integration in ein neues Datenbanksystem abgelöst.

Ein Beispiel: Viele Unternehmen speichern die Echtzeitdaten aus dem Industrial IoT zunächst in einer TSDB. In einem zweiten Schritt werden sie dann in Form von aggregierten Daten in ein NoSQL-System überführt, um sie leichter und schneller analysieren zu können. Grundsätzlich ist das nicht falsch, denn die jeweiligen Datenbanksysteme haben ihre eigenen Vorteile und Stärken. Doch es geht auch anders: Eine neue Generation an Datenbanken, speziell für Maschinendaten entwickelt, bietet hier völlig neue Optionen.

Beispielsweise verbindet CrateDB die Vorteile von NoSQL und TSDB, unterstützt aber gleichzeitig den SQL-Standard mit Postgres. Zudem hält sie die Daten auf einem leistungsfähigen und rasch skalierbaren Cluster in der Cloud vorrätig und unterstützt gleichzeitig lokalen Betrieb (EDGE). Die Speicherung der Daten erfolgt dadurch wesentlich effizienter und der Arbeitsaufwand für die Administration sinkt deutlich.
Nur eine statt drei Datenbanken
Vor allem gibt es auch betriebswirtschaftliche Vorteile: Durch die optimierte Architektur lassen sich Kostenersparnisse erzielen, weil weniger Server und Leistung nötig sind, um sogar bessere Ergebnisse zu erzielen. So lassen sich zwei oder gar drei Systemen auf eine Datenbank konsolidieren, die relationale und unstrukturierte Daten verarbeitet. Der SQL-Standard für alle Arten von Daten erlaubt den Einsatz bestehender Werkzeuge des eingelernten Teams und sehr leichte Integration beziehungsweise einfachen Austausch in Applikationen. Vorhandene Anwendungen lassen sich dabei weiter nutzen und der Austausch in andere Systeme gestaltet sich leicht.

Aus Anwendersicht ist ein solches Datenbanksystem einheitlicher und leichter zu bedienen, da es sich mit dem vertrauten SQL-Standard komplett nutzen lässt. Und zuletzt entsteht eine Kostensenkung innerhalb der internen IT: Entwickler arbeiten mit nur einer Datenbank und Admins jonglieren nicht mehr mit unterschiedlichen Systemen.

Der Weg zur erfolgreichen Konsolidierung
Die Vereinheitlichung von Datenbanksystemen und Datenbanken ist eine wichtige Voraussetzung, um überhaupt umfassend von aktuellen Trends wie dem Industrial IoT, Data Analytics oder Machine Learning zu profitieren. Allerdings erzeugt die Konsolidierung zunächst einmal selbst Aufwand. Damit ein entsprechendes Projekt nicht aus dem Ruder läuft, müssen Unternehmen ein klares Ziel für die Konsolidierung setzen: Welche Daten und welche Datenbanken lassen sich überhaupt konsolidieren? Geht es darum, übertriebenen Wildwuchs zu beseitigen oder soll das gesamte Unternehmen eine einheitliche Datenspeicherung erhalten? Solche Fragen gilt es zuerst zu beantworten.

Anschließend ist die technische Seite der Konsolidierung zu klären. Damit die Datenformate einheitlich sind, benötigt das Projekt Konnektoren zwischen Quell- und Zieldatenbank. Wenn sie fehlen, sollten zumindest auf beiden Seiten der Konsolidierungs-Pipeline Import/Export-Filter für ein gemeinsames Zwischenformat wie XML vorhanden sein. Dadurch ist es möglich, selbst exotische und ältere Datenformate in die Zieldatenbank zu importieren. Dank dem Standard SQL ist es jedoch in der Regel sehr einfach, verschiedene Systeme und deren Daten zu konsolidieren.

Händisch oder automatisch konsolidieren?
Als Methode für die Konsolidierung kommt üblicherweise ein ETL-Prozess (Extract, Transform, Load) zum Einsatz. Hinter dem Kürzel "Transform" verbirgt sich dann der Teil der Datenkonsolidierung, der sich algorithmisch gesteuert ausführen lässt, etwa die Konvertierung von Zeitangaben nach UTC, Zuordnung von Zeitreihendaten zu Produkt- oder Prozessinformationen oder auch nur die Beseitigung von Dubletten und Inkonsistenzen.

Abhängig von der Größe der Datenbanken und der verfügbaren Rechenleistung ist ferner die Frage der Automatisierung zu klären: Welche Teile der Daten können automatisch durch Skripte und welche müssen händisch konsolidiert werden? Eine Datenkonsolidierung wird immer manuelles Finetuning erfordern, das sollten Unternehmen bei der Budgetierung des Projekts berücksichtigen.

Fazit
Mit einer vorsichtigen und überlegten Vorgehensweise schließen Unternehmen ihre Konsolidierungsprojekte erfolgreich ab. Der Aufwand lohnt sich, denn eine neue Infrastruktur ist übersichtlicher für die Admins und damit letztlich effizienter in der Anwendung.
17.03.2021/ln/Christian Lutz, Gründer und COO von Crate.io

Nachrichten

18-TByte-Festplatten dank Mikrowellen-Technologie [16.09.2021]

Toshiba Electronics Europe hat dem Portfolio seiner N300-NAS- und X300-Performance-Festplatten neue 18-TByte-Modelle hinzugefügt. Die beiden neuen Laufwerke arbeiten auf Basis der FC-MAMR-Technologie, die der Hersteller Anfang dieses Jahres angekündigt hat. [mehr]

Datenlieferservice [18.08.2021]

Mit dem neuen HiDrive Share bietet STRATO jetzt einen Dienst, der erlaubt, große Dateien kostenlos zu teilen. Für das Hoch- und Herunterladen von Dateien ist dabei keine E-Mail-Adresse nötig und der Transfer erfolgt verschlüsselt. Anschließend stehen die Files dann bis zu einer Woche über einen sicher generierten Link zur Verfügung. Der kostenlose Dienst stellt pro Upload zwei GByte Speicher für beliebig viele Dateien zur Verfügung. [mehr]

Tipps & Tools

Download der Woche: BleachBit [15.09.2021]

Im Haushalt ist Bleach durch seinen scharfen Geruch gefürchtet, am Rechner kann eine gründliche Reinigung von überlaufenden Festplatten und anderen Speicher-Ressourcen allerdings auch nicht schaden. Mit dem kostenfreien Tool "BleachBit" untersuchen Sie Ihr Windows- oder Linux-System nach nicht mehr benötigten Dateien und löschen diese anschließend sicher. Neben mehr Speicherplatz bringt das in der Regel auch eine Verbesserung der Performance. [mehr]

MariaDB Community Server 10.6 erweitert JSON- und Oracle-Kompatibilität [2.07.2021]

MariaDB hat seine relationale Open-Source-Datenbank einem Update unterzogen. Die neue Version 10.6 erweitert die JSON-Tabellenfunktion ebenso wie die Kompatibilität zur proprietären Oracle-Programmiersprache PL/SQL und wartet mit einer neuen Data Definition Language zur Absicherung von Datenbankausfällen auf. [mehr]

Buchbesprechung

Windows 10 Power-Tipps

von Günter Born

Anzeigen