Fachartikel

Nicht-relationale Datenbanken beschleunigen Big-Data-Analysen

Herkömmliche Datenverarbeitungsprozesse auf Basis relationaler Datenbanken genügen im Zeitalter von Big Data häufig nicht mehr, um die riesigen Datenmengen aus unterschiedlichsten Quellen in angemessener Zeit zu analysieren und Erkenntnisse daraus gewinnen zu können. Im schlimmsten Fall lassen sich dann neue Geschäftsmodelle nicht angemessen realisieren. Der Artikel zeigt, wie Unternehmen mithilfe moderner Datenaggregationsmethoden und nicht-relationaler Datenbanken dieses Problem lösen und Wettbewerbsvorteile gewinnen können.
Mit NoSQL lassen sich jederzeit und ohne große Anpassungen neue Abfragen auf dem Datenbestand realisieren.
Die Menge der Informationen, die Privatmenschen und Unternehmen produzieren, wächst in einem rasenden Tempo. Laut einer Studie von EMC und IDC wird das weltweite Datenvolumen bis 2020 im Vergleich zu 2014 um das Zehnfache anwachsen – von 4,4 Billionen GByte auf dann 44 Billionen GByte. In Deutschland wird die Menge digitaler Daten im gleichen Zeitraum von 230 auf 1100 Milliarden GByte steigen. Wer diese Fülle an Daten auswerten und daraus neue Anwendungen, Geschäftsideen oder Strategien entwickeln kann, ist eindeutig im Vorteil. Der Schlüssel dazu ist Big Data – die Analyse sehr großer, häufig unstrukturierter Datenmengen.
Herkömmliche Datenaggregations- und verarbeitungsprozesse
Vor der Informationsverarbeitung muss der Data Scientist die Daten jedoch zunächst einmal sammeln aufbereiten und in ein Data Warehouse oder ein Analysesystem laden. Dies ist ein langwieriger und komplexer Prozess. Die am häufigsten dafür verwendete Methode ist ETL (Extract, Transform, Load). Wie der Name schon andeutet, besteht sie aus drei Schritten:

Extract: Das System bezieht Daten aus verschiedenen Quellen. Dabei kann es sich um strukturierte interne Datenbanken handeln oder um öffentlich zugängliche, nur zum Teil strukturiert vorliegende Datenmärkte, die beispielsweise Wetter- oder Demografiedaten zur Verfügung stellen. Auch unstrukturierte Quellen wie E-Mail-Ablagen oder Dokumentenordner sind als Quelle nutzbar. Transaktionsdaten aus dem Online-Bereich, etwa von einem Web-Shop, sowie Log-Files stellen weitere wichtige Datenquellen dar. Ein Extract kann in regelmäßigen Abständen, ereignisgesteuert oder in Echtzeit erfolgen.

Transform: Um die Daten weiterverarbeiten zu können, lädt sie das System in einen eigenen Arbeitsbereich (Staging Area), bringt sie dort in eine einheitliche Form und passt sie durch das sogenannte Schema-Mapping an die Zielstruktur, also das Tabellenschema der relationalen Datenbank an. Man unterscheidet zwischen syntaktischer Transformation, bei der die Daten an formale Aspekte des Zielformats angepasst werden und der semantischen, welche die Quelldaten auf inhaltliche Aspekte prüft und gegebenenfalls modifiziert. Eine syntaktische Transformation findet beispielsweise statt, wenn Datums- und Zeitangaben in eine einheitliche Form, etwa "DDMMYY hh:mm" gebracht werden. Bei der semantischen Transformation geht es dagegen um die Dateninhalte. Semantische Transformationen gehen zum Beispiel vonstatten, wenn Maßeinheiten umgerechnet, Datensätze zusammengefasst oder Duplikate erkannt und zusammengeführt werden.

Load: Im letzten Schritt lädt ETL die Daten in das Zielsystem. Dabei darf der Import die Datenbank beziehungsweise das Data Warehouse während des Ladens nichts ausbremsen oder gar blockieren – und schon gar nicht deren Integrität gefährden. Mögliche Problemquellen sind beispielweise nicht oder schlecht abgefangene Fehlermeldungen der Datenbank, etwa wenn der ETL-Prozess einen Datensatz in einer nicht erwarteten Form liefert. Reagiert der ETL-Prozess darauf nicht und korrigiert den Datensatz, bleibt unter Umständen der Import stehen. Bei Echtzeitprozessen kann es zudem dazu kommen, dass die Ausgangsdaten geändert werden, während der Datensatz geschrieben wird, was zu Inkonsistenzen in der Datenbank führen kann.

    Seite 1: Herkömmliche Datenverarbeitungsprozesse
    Seite 2: ELT optimal nutzen – mit NoSQL


Seite 1 von 2 Nächste Seite >>
18.01.2017/ln/Stefano Marmonti, DACH Sales Director bei MarkLogic

Nachrichten

Hybrides NAS [6.03.2020]

QNAP bringt mit dem "TS 1886XU-RP" ein neues NAS der Unternehmensklasse auf den Markt. Die Appliance dient als hybrides Speichergerät und bietet Platz für zwölf Festplatteneinschübe und sechs dedizierte SSDs. Das 2U-Rackmount-NAS ist mit einem Intel-Xeon-Prozessor der D-1600 Serie sowie DDR4-Error-Correcting-Code-Speicher ausgestattet. [mehr]

All-Flash-Speicher im Abo [6.03.2020]

Im Rahmen seines Subskriptionsmodells "Evergreen" stellt Pure Storage eine neue Version der Betriebsumgebung "Purity" für sein All-Flash-Produkt "FlashArray" vor. Laut Hersteller bietet Purity 5.3 unter anderem mehr Multi-Cloud-Unterstützung, eine verstärkte Sicherheitsfunktionalität und eine Verbesserungen der Quality-of-Service. [mehr]

Tipps & Tools

Das bringt 2020 für Flash-Speicher [12.03.2020]

In diesem Jahr wird Flash für noch mehr Workloads eingesetzt, die bisher auf HDD- oder Hybridsystemen betrieben wurden. Dazu gehören Tier-2-Anwendungsfälle, Big-Data-Analytik und die schnelle Wiederherstellung von immer größer werdenden geschäftskritischen Systemen und Datenbanken. Flash gewinnt außerdem in Hybrid-Cloud-Szenarien und als Scale-out-Speicherlösung mit Datei- und Objektspeicherung an Bedeutung. Der Fachartikel gibt einen Ausblick darauf, mit welchen Neuerungen im Bereich Flash 2020 zu rechnen ist. [mehr]

Download der Woche: Meld [15.10.2019]

Bei der Systemwartung finden sich immer wieder doppelt vorhandene Dateien und Ordner unter Windows. Diese sorgen nicht nur für Verwirrung, sondern rauben auch Zeit beim Säubern der Struktur auf dem Rechner. Mit dem kostenfreien Tool "Meld" lassen sich durch einen sogenannten "Zwei- und Drei-Wege-Vergleich" sowohl von Files als auch Verzeichnissen die nicht mehr benötigten Daten ermitteln. [mehr]

Buchbesprechung

Technik der IP-Netze

von Anatol Badach und Erwin Hoffmann

Anzeigen