Fachartikel

Mit MPP und Hadoop durch die Datenflut

Die Analyse großer Datenmengen erfordert neue Techniken. Mit Massive Parallel Processing und dem Hadoop-Framework stehen dafür zwei Ansätze zur Verfügung, die sich mit speziellen Tools auch verbinden lassen. Ein Kernthema bei der Verbindung dieser beiden Ansätze ist die Integration von SQL in Hadoop. Wie unser Fachartikel zeigt, sind die eigentliche Hürde dabei allerdings nicht die Technologien an sich, sondern dass dabei Know-how notwendig ist, das in der Praxis oft noch nicht vorhanden ist.
Um die Datenflut im Zaum zu halten, bedarf es der richtigen Werkzeuge wie MPP oder Hadoop.
In der Big-Data-Welt verschieben sich Maßstäbe: Das Terabyte gehört neuerdings in die Kategorie mittelgroß: Groß sind Datenmengen erst, wenn sie im Petabyte-Bereich liegen, und das Zettabyte steht schon vor der Türe. Die Ursachen der explosionsartigen Vermehrung von Daten liegen zum einen in der fortschreitenden Digitalisierung aller kaufmännischer und technischer Prozesse: Jede Lagerbewegung, jeder Prozessschritt in der Fertigung, jeder Aufruf einer App, jeder Kassenvorgang und jeder Meter, den ein Auto fährt, erzeugt immense Datenmengen. Die fortschreitende Vernetzung der Systeme, wie sie auch im Internet der Dinge erfolgt, treibt diese Entwicklung weiter voran. Dazu kommen zum anderen nutzergenerierte Daten, vor allem Multimedia-Inhalte, Audio-Files, Fotos oder HD-Videos, was alles sehr datenintensiv ist.

Ein Teil dieser Daten mag schlicht Datenmüll sein und nie wieder aufgerufen werden. Doch es finden sich unter diesen Daten eben auch Informationen, die Unternehmen für ihre Geschäftsprozesse nutzen können. Aus Geo- und Telematik-Daten von Fahrzeugen, aus den Mausbewegungen auf einer Shop-Plattform, aus den System-Daten eines Motor-Management lassen sich Rückschlüsse auf Kundenverhalten und -präferenzen oder auf Service-Status und Ausfallwahrscheinlichkeit ziehen. Kombiniert mit Kontext-Informationen wie Wetter oder Kundenhistorie lassen sich daraus auch Prognosen ableiten.
Spezielle Werkzeuge für Big-Data-Analysen
Herkömmliche Data-Warehouse-Systeme sind mit den Datenmengen und den anspruchsvollen Aufgaben, die aus ihnen erwachsen, überfordert. Die Aufbereitung, Verarbeitung, Auswertung und Darstellung riesiger Mengen äußerst heterogener Daten, von denen die wenigsten strukturiert sind, deren Aufbau und Zusammensetzung sich laufend ändert, die aber in Echtzeit ausgewertet werden sollen, machen den Einsatz neuer, speziell auf die Anforderungen von Big Data ausgerichteter Technologien erforderlich.

Grundsätzlich lassen sich dabei zwei Ansätze unterscheiden:

  • Massive Parallel Processing (MPP) und
  • das Framework Hadoop.
MPP-Werkzeuge sind spezielle Subsysteme mit eigener Hardware; sie verbinden CPU und Storage, die aus mehreren parallel arbeitenden Nodes bestehen. Sie sind besser skalierbar als gewöhnliche Datenbank-Systeme und können wegen der parallelen Verarbeitung sehr, sehr große Datenmengen in kurzer Zeit bewältigen – das wird durch die spezielle Programmierung dieser Systeme intern geregelt. Durch diese Algorithmen und durch die technische Abstimmung der Komponenten bildet ein MPP-System eine Art Black Box, die vom jeweiligen Hersteller auf Höchstleistung für die speziellen Anforderungen bei Big Data getrimmt wurde, das damit aber ein proprietäres System ist. Für die Nutzer ist das insofern nicht schlimm, als MPP-Systeme nach außen über natives SQL, also standardkonform kommunizieren.

Diese Eckdaten eines MPP-Systems signalisieren aber auch schon, dass es sich um recht große und dementsprechend teure Lösungen handeln kann. So kann sich die Anzahl der CPU-Kerne je System von wenigen Hundert auf mehrere Tausend erstrecken, dementsprechend sollten Anwender mit einer mittleren sechsstelligen Investition als Absprungbasis rechnen.

Hadoop verfolgt dagegen ein offenes Konzept. Es basiert auf Java und ist ein Top-Level-Projekt der Apache Software Foundation. Verwendet wurde dabei der lange Map-Reduce-Ansatz, mit dem es möglich ist, große Datenmengen schnell zu verarbeiten. Mittlerweile sind aber auch andere, zum Teil moderne Datenverarbeitungsmechanismen möglich. Hadoop ist, entsprechend der Aufgabenstellung, für einmaliges Schreiben und häufiges Lesen optimiert. Natives SQL wird allerdings nicht direkt unterstützt.

Hadoop läuft auf einem Verbund von x86-Rechnern, das System basiert also auf Standard-, um nicht zu sagen Commodity-Hardware. Folglich lassen sich dann auch kleinere Implementierungen realisieren, mit 10.000 bis 30.000 Euro sind Unternehmen hier schon dabei.

Beide Ansätze nutzten ähnliche Grundlagen, wenn es um das Aufteilen großer Datenmengen in kleinere Einheiten auf mehrere Rechenknoten geht. Beide können durch parallele Verarbeitung so große Datenmengen in kurzer Zeit verarbeiten. Die Unterschiede entstehen durch die speziell optimierte Hard- und Software für Compute-Storage- und Network-Performance bei MPP einerseits, und die offenen Hard- und Software-Architekturen bei Hadoop andererseits. Da MPP für deklarative Abfragen SQL nutzt, lassen sich damit Anwendungen oft einfacher und schneller entwickeln oder anpassen als entsprechende Map-Reduce-Jobs unter Hadoop.

    Seite 1: Spezielle Werkzeuge für Big-Data-Analysen
    Seite 2: Engpass Know-how


Seite 1 von 2 Nächste Seite >>
1.06.2016/ln/Diethelm Siebuhr, CEO der Nexinto Holding & Martin Becker, Senior Solutions Consultant bei Nexinto

Nachrichten

Hybrides NAS [6.03.2020]

QNAP bringt mit dem "TS 1886XU-RP" ein neues NAS der Unternehmensklasse auf den Markt. Die Appliance dient als hybrides Speichergerät und bietet Platz für zwölf Festplatteneinschübe und sechs dedizierte SSDs. Das 2U-Rackmount-NAS ist mit einem Intel-Xeon-Prozessor der D-1600 Serie sowie DDR4-Error-Correcting-Code-Speicher ausgestattet. [mehr]

All-Flash-Speicher im Abo [6.03.2020]

Im Rahmen seines Subskriptionsmodells "Evergreen" stellt Pure Storage eine neue Version der Betriebsumgebung "Purity" für sein All-Flash-Produkt "FlashArray" vor. Laut Hersteller bietet Purity 5.3 unter anderem mehr Multi-Cloud-Unterstützung, eine verstärkte Sicherheitsfunktionalität und eine Verbesserungen der Quality-of-Service. [mehr]

Tipps & Tools

Das bringt 2020 für Flash-Speicher [12.03.2020]

In diesem Jahr wird Flash für noch mehr Workloads eingesetzt, die bisher auf HDD- oder Hybridsystemen betrieben wurden. Dazu gehören Tier-2-Anwendungsfälle, Big-Data-Analytik und die schnelle Wiederherstellung von immer größer werdenden geschäftskritischen Systemen und Datenbanken. Flash gewinnt außerdem in Hybrid-Cloud-Szenarien und als Scale-out-Speicherlösung mit Datei- und Objektspeicherung an Bedeutung. Der Fachartikel gibt einen Ausblick darauf, mit welchen Neuerungen im Bereich Flash 2020 zu rechnen ist. [mehr]

Download der Woche: Meld [15.10.2019]

Bei der Systemwartung finden sich immer wieder doppelt vorhandene Dateien und Ordner unter Windows. Diese sorgen nicht nur für Verwirrung, sondern rauben auch Zeit beim Säubern der Struktur auf dem Rechner. Mit dem kostenfreien Tool "Meld" lassen sich durch einen sogenannten "Zwei- und Drei-Wege-Vergleich" sowohl von Files als auch Verzeichnissen die nicht mehr benötigten Daten ermitteln. [mehr]

Buchbesprechung

Technik der IP-Netze

von Anatol Badach und Erwin Hoffmann

Anzeigen