Hadoop erfolgreich implementieren

06.05.2015 - 00:00

Veröffentlicht in:

Fachartikel

Ob Predictive Analytics oder Internet of Things: Hadoop verarbeitet Datenvolumen im Big-Data-Maßstab, läuft auf Standard-Hardware und hat die bekannten Grenzen bei Speicherung und Analyse verschoben. Dennoch ist die Open Source-Variante nur bedingt für Unternehmen geeignet. Hadoop-Distributionen können diese Vorteile mit der für den Unternehmenseinsatz notwendigen Funktionalität zusammenführen. Welche Aspekte Sie bei der Implementierung berücksichtigen sollten, zeigt Ihnen dieser Beitrag.

Unternehmen, die nach der einer geeigneten IT-Infrastruktur für Big Data suchen, landen oft bei Hadoop: Die Open Source-Software verarbeitet riesige Datenmengen und macht Speicherung und Analyse in bisher ungekanntem Umfang möglich. Zudem lässt sich Hadoop kostengünstig auf Commodity-Hardware betreiben. Hadoop-Distributionen verbinden die Vorteile von Open Source mit den Vorzügen einer für den Unternehmenseinsatz konzipierten Lösung – doch hier gibt es Unterschiede. So handelt es sich bei Hadoop nicht um ein fertiges Produkt und es gibt einige Hürden bei der Nutzung der Open Source-Variante. Wer sich Gedanken über den Einsatz macht, sollte daher besonders folgende Aspekte berücksichtigen.

Backup und Security ab Werk?
Wer viele Daten verwaltet, für den ist der Sicherheitsaspekt von immenser Bedeutung – ob es nun um deren Schutz, die Ausfallsicherheit oder deren Integrität geht. Dies gilt insbesondere, wenn der Datentransfer wie bei Hadoop über mehrere Cluster erfolgt. Dementsprechend sorgen etwa Backup-Funktionen für Hadoop-Cluster dafür, dass ein Produktivsystem weiterhin betrieben werden kann, sollten etwa beim Rollout einer neuen Softwareversion Probleme auftreten.

Jedoch sind die Funktionen der Open Source-Variante im Vergleich zu anderen Applikationen eingeschränkt: So behebt das Hadoop Distributed File System (HDFS) zwar Festplattenfehler, beschädigte Dateien reproduzieren sich jedoch von Cluster zu Cluster. Zudem ist es schwierig, menschliche Fehler zu beheben, da HDFS nur über eine eingeschränkte Snapshot-Funktion verfügt, sodass sich Snapshots mit der Größe der kopierten Dateien verändern. Besitzt die gewählte Lösung ein POSIX-kompatibles Dateisystem mit Random-Read-Write-Funktionen, sind etwa Snapshots in Echtzeit kein Problem.

Ebenfalls interessant ist eine Unterstützung der Linux Pluggable Authentification Modules (PAM), da hier der großvolumige Datentransfer zwischen den Nodes durch zusätzliche Verfahren zur Verschlüsselung gesichert ist. In der Open Source-Version bietet Hadoop nur eine Kerberos-Authentifizierung und damit keine mehrstufigen Verschlüsselungsverfahren.

Skalierbarkeit und Verlässlichkeit prüfen
Es gibt eine weitverbreitete Annahme: Wer viele Daten speichern kann, der kann auch skalieren. Bei genauerem Hinsehen erweist sich die NameNode-Architektur von Hadoop jedoch eher als ein Flaschenhals für die Skalierbarkeit: NameNodes sind eine Voraussetzung für Cluster, jedoch können Cluster nur gemäß der Größe der NameNodes skalieren. Das führt dazu, dass eine 1 MByte große Datei einen kompletten 2 GByte-Speicherblock belegen kann. Dies zu vermeiden, bedeutet für Administratoren einen erheblichen Konfigurationsaufwand.

Zudem produzieren NameNodes einen sogenannten Single Point of Failure, wobei ein einziger Prozess einen gesamten Cluster funktionsunfähig machen kann. Das Datenmodell von HBase verfügt im Vergleich zu HDFS zwar über zusätzliche Funktionen, liefert aber nicht die nötige Ausfallsicherheit, da hier auf verdichteten Code zurückgegriffen wird und Datenverdichtungen im schlimmsten Falle zum Ausfall des kompletten Clusters führen können.

Die Unterschiede zwischen einer NameNodes-Architektur (blau) und einer Architektur ohne NameNodes (rot).

Hadoop-Distributionen mit einer verteilten Metadaten-Architektur können dieses Problem adressieren und die Limitierung der Blockgröße aufheben, um im Ergebnis nicht 100 Millionen, sondern Billiarden an Dateien zu verarbeiten. Eine hohe Verlässlichkeit lässt sich durch die Nutzung einer Read-Write-Funktion gewährleisten, über die das verteilte Dateisystem HDFS aber nicht in jeder Distribution verfügt.

Gesamtbetriebskosten berücksichtigen
Open Source gilt häufig als Gratis-Lösung oder zumindest als deutlich günstiger im Vergleich zu kommerziellen Alternativen. Dies ist eine recht verkürzte Perspektive, die gegebenenfalls für die reine Software gilt – nicht aber im Hinblick auf die Gesamtkosten. Kommerzielle Lösungen, die auf Hadoop aufsetzen, benötigen für die gleiche Leistung häufig weniger Hardware und senken zusätzlich den Energieverbrauch. Zudem verringert sich der Administrationsaufwand durch Vorkonfigurationen und zusätzliche Serviceleistungen.

Dass Open Source nicht günstiger sein muss, zeigt sich am Beispiel eines Medienunternehmens, das seine acht HBase-Cluster zu einem mit MapR betriebenen Cluster konsolidieren und einen Großteil der Ressourcen einsparen konnte. Zugleich erlaubt das Datenbank-Konzept die parallele Ausführung von Betrieb und Analyse auf einer einzigen Plattform, sodass sich Snapshots einer Tabelle umgehend analysieren lassen.

Wer den von On-Premise-Lösungen bekannten Lock-in-Effekt fürchtet, sollte sich für ein Konzept entscheiden, dass über die gleichen Schnittstellen wie die Open Source-Variante verfügt und Hadoop-Komponenten wie Spark, Hive oder Flume unterstützt. Dies bietet den Vorteil, dass sich Gratis-Lösungen beliebig einsetzen lassen und bei Bedarf an der richtigen Stelle durch weitere Funktionen ergänzt werden können. Die Unterstützung von NFS ist ebenfalls sinnvoll, da viele Anwendungen und Entwicklertools auf dieses Protokollformat zurückgreifen.

Arbeitskraft einsparen
Viele Unternehmen verzeichnen einen Fachkräftemangel im IT-Bereich – laut einer aktuellen Bitkom-Studie insbesondere unter Software-Entwicklern, gefolgt von Anwendungsbetreuern und Administratoren. Dementsprechend zögern manche Unternehmen, Hadoop einzusetzen, da ihnen die internen Ressourcen für einen reibungslosen Betrieb fehlen. Wer allerdings nicht die reine Open Source-Variante einsetzt, der findet heute ein engmaschiges Supportnetzwerk vor, sodass IT-Administratoren sich nicht mit kleinteiligen Details auseinandersetzen müssen und die Konfiguration von Blockgrößen oder die Wiederherstellung eines NameNodes nicht die gesamte Belegschaft beansprucht.

Fazit
Ob Echtzeitanalyse oder die Verwaltung unstrukturierter Daten im Zeitalter des Internet of Things – Hadoop erweist sich für viele geschäftskritische Szenarios als geeignete Plattform. Die Einschränkungen von Open Source-Software stehen dem nicht entgegen, da kommerzielle Weiterentwicklungen ein Hadoop-Portfolio geschaffen haben, das alle Anforderungen für den Unternehmenseinsatz abdeckt – aber auf den Lock-In-Effekt von On-Premise-Lösungen und teure Lizensierungen verzichtet.

ln/Fabian Wilckens, EMEA Solutions Architect bei MapR

Hadoop erfolgreich implementieren

Hadoop erfolgreich implementieren

Tags

Ähnliche Beiträge

Drei zentrale Herausforderungen für das Datenmanagement

Im Test: Power Admin Storage Monitor 9.3

All-Flash-Rechenzentrum beim Bio-Großhändler

Partner Links

Kontakt