Hadoop erfolgreich implementieren

Lesezeit
3 Minuten
Bis jetzt gelesen

Hadoop erfolgreich implementieren

06.05.2015 - 00:00
Veröffentlicht in:
Ob Predictive Analytics oder Internet of Things: Hadoop verarbeitet Datenvolumen im Big-Data-Maßstab, läuft auf Standard-Hardware und hat die bekannten Grenzen bei Speicherung und Analyse verschoben. Dennoch ist die Open Source-Variante nur bedingt für Unternehmen geeignet. Hadoop-Distributionen können diese Vorteile mit der für den Unternehmenseinsatz notwendigen Funktionalität zusammenführen. Welche Aspekte Sie bei der Implementierung berücksichtigen sollten, zeigt Ihnen dieser Beitrag.
Unternehmen, die nach der einer geeigneten IT-Infrastruktur für Big Data suchen, landen oft bei Hadoop: Die Open Source-Software verarbeitet riesige Datenmengen und macht Speicherung und Analyse in bisher ungekanntem Umfang möglich. Zudem lässt sich Hadoop kostengünstig auf Commodity-Hardware betreiben. Hadoop-Distributionen verbinden die Vorteile von Open Source mit den Vorzügen einer für den Unternehmenseinsatz konzipierten Lösung – doch hier gibt es Unterschiede. So handelt es sich bei Hadoop nicht um ein fertiges Produkt und es gibt einige Hürden bei der Nutzung der Open Source-Variante. Wer sich Gedanken über den Einsatz macht, sollte daher besonders folgende Aspekte berücksichtigen.

Backup und Security ab Werk?
Wer viele Daten verwaltet, für den ist der Sicherheitsaspekt von immenser Bedeutung – ob es nun um deren Schutz, die Ausfallsicherheit oder deren Integrität geht. Dies gilt insbesondere, wenn der Datentransfer wie bei Hadoop über mehrere Cluster erfolgt. Dementsprechend sorgen etwa Backup-Funktionen für Hadoop-Cluster dafür, dass ein Produktivsystem weiterhin betrieben werden kann, sollten etwa beim Rollout einer neuen Softwareversion Probleme auftreten.

Jedoch sind die Funktionen der Open Source-Variante im Vergleich zu anderen Applikationen eingeschränkt: So behebt das Hadoop Distributed File System (HDFS) zwar Festplattenfehler, beschädigte Dateien reproduzieren sich jedoch von Cluster zu Cluster. Zudem ist es schwierig, menschliche Fehler zu beheben, da HDFS nur über eine eingeschränkte Snapshot-Funktion verfügt, sodass sich Snapshots mit der Größe der kopierten Dateien verändern. Besitzt die gewählte Lösung ein POSIX-kompatibles Dateisystem mit Random-Read-Write-Funktionen, sind etwa Snapshots in Echtzeit kein Problem.

Ebenfalls interessant ist eine Unterstützung der Linux Pluggable Authentification Modules (PAM), da hier der großvolumige Datentransfer zwischen den Nodes durch zusätzliche Verfahren zur Verschlüsselung gesichert ist. In der Open Source-Version bietet Hadoop nur eine Kerberos-Authentifizierung und damit keine mehrstufigen Verschlüsselungsverfahren.

Skalierbarkeit und Verlässlichkeit prüfen
Es gibt eine weitverbreitete Annahme: Wer viele Daten speichern kann, der kann auch skalieren. Bei genauerem Hinsehen erweist sich die NameNode-Architektur von Hadoop jedoch eher als ein Flaschenhals für die Skalierbarkeit: NameNodes sind eine Voraussetzung für Cluster, jedoch können Cluster nur gemäß der Größe der NameNodes skalieren. Das führt dazu, dass eine 1 MByte große Datei einen kompletten 2 GByte-Speicherblock belegen kann. Dies zu vermeiden, bedeutet für Administratoren einen erheblichen Konfigurationsaufwand.

Zudem produzieren NameNodes einen sogenannten Single Point of Failure, wobei ein einziger Prozess einen gesamten Cluster funktionsunfähig machen kann. Das Datenmodell von HBase verfügt im Vergleich zu HDFS zwar über zusätzliche Funktionen, liefert aber nicht die nötige Ausfallsicherheit, da hier auf verdichteten Code zurückgegriffen wird und Datenverdichtungen im schlimmsten Falle zum Ausfall des kompletten Clusters führen können.


Die Unterschiede zwischen einer NameNodes-Architektur (blau) und einer Architektur ohne NameNodes (rot).

Hadoop-Distributionen mit einer verteilten Metadaten-Architektur können dieses Problem adressieren und die Limitierung der Blockgröße aufheben, um im Ergebnis nicht 100 Millionen, sondern Billiarden an Dateien zu verarbeiten. Eine hohe Verlässlichkeit lässt sich durch die Nutzung einer Read-Write-Funktion gewährleisten, über die das verteilte Dateisystem HDFS aber nicht in jeder Distribution verfügt.

Gesamtbetriebskosten berücksichtigen
Open Source gilt häufig als Gratis-Lösung oder zumindest als deutlich günstiger im Vergleich zu kommerziellen Alternativen. Dies ist eine recht verkürzte Perspektive, die gegebenenfalls für die reine Software gilt – nicht aber im Hinblick auf die Gesamtkosten. Kommerzielle Lösungen, die auf Hadoop aufsetzen, benötigen für die gleiche Leistung häufig weniger Hardware und senken zusätzlich den Energieverbrauch. Zudem verringert sich der Administrationsaufwand durch Vorkonfigurationen und zusätzliche Serviceleistungen.

Dass Open Source nicht günstiger sein muss, zeigt sich am Beispiel eines Medienunternehmens, das seine acht HBase-Cluster zu einem mit MapR betriebenen Cluster konsolidieren und einen Großteil der Ressourcen einsparen konnte. Zugleich erlaubt das Datenbank-Konzept die parallele Ausführung von Betrieb und Analyse auf einer einzigen Plattform, sodass sich Snapshots einer Tabelle umgehend analysieren lassen.

Wer den von On-Premise-Lösungen bekannten Lock-in-Effekt fürchtet, sollte sich für ein Konzept entscheiden, dass über die gleichen Schnittstellen wie die Open Source-Variante verfügt und Hadoop-Komponenten wie Spark, Hive oder Flume unterstützt. Dies bietet den Vorteil, dass sich Gratis-Lösungen beliebig einsetzen lassen und bei Bedarf an der richtigen Stelle durch weitere Funktionen ergänzt werden können. Die Unterstützung von NFS ist ebenfalls sinnvoll, da viele Anwendungen und Entwicklertools auf dieses Protokollformat zurückgreifen.

Arbeitskraft einsparen
Viele Unternehmen verzeichnen einen Fachkräftemangel im IT-Bereich – laut einer aktuellen Bitkom-Studie insbesondere unter Software-Entwicklern, gefolgt von Anwendungsbetreuern und Administratoren. Dementsprechend zögern manche Unternehmen, Hadoop einzusetzen, da ihnen die internen Ressourcen für einen reibungslosen Betrieb fehlen. Wer allerdings nicht die reine Open Source-Variante einsetzt, der findet heute ein engmaschiges Supportnetzwerk vor, sodass IT-Administratoren sich nicht mit kleinteiligen Details auseinandersetzen müssen und die Konfiguration von Blockgrößen oder die Wiederherstellung eines NameNodes nicht die gesamte Belegschaft beansprucht.

Fazit
Ob Echtzeitanalyse oder die Verwaltung unstrukturierter Daten im Zeitalter des Internet of Things – Hadoop erweist sich für viele geschäftskritische Szenarios als geeignete Plattform. Die Einschränkungen von Open Source-Software stehen dem nicht entgegen, da kommerzielle Weiterentwicklungen ein Hadoop-Portfolio geschaffen haben, das alle Anforderungen für den Unternehmenseinsatz abdeckt – aber auf den Lock-In-Effekt von On-Premise-Lösungen und teure Lizensierungen verzichtet.



ln/Fabian Wilckens, EMEA Solutions Architect bei MapR

Tags

Ähnliche Beiträge

Drei zentrale Herausforderungen für das Datenmanagement

Daten sind ein unverzichtbarer Vermögenswert für Unternehmen geworden. Für ITAdministratoren bedingt dies, neben fundamentalen Datenmanagement-Anforderungen, Veränderungen in den Bereichen Organisationsstruktur, Kultur und Leadership sowie Rollen und Skills voranzutreiben. Der Fachartikel zählt die drei größten Herausforderungen auf, vor denen Organisationen in Bezug auf Datenmanagement stehen.

Im Test: Power Admin Storage Monitor 9.3

Eine effiziente Planung der Storage-Landschaft und ihrer Verfügbarkeit setzt detailliertes Wissen über Beschaffenheit und Alter der gespeicherten Daten voraus. Power Admin Storage Monitor verspricht, den Datenbestand umfassend zu analysieren, laufend zu überwachen und automatisch auf Ereignisse zu reagieren. Dabei liegt der Schwerpunkt auf Windows, doch das flexible Tool bindet auch andere Speicher im Netzwerk per SNMP an.

All-Flash-Rechenzentrum beim Bio-Großhändler

Seit vielen Jahren arbeiten Storage-Anbieter daran, All-Flash-Systeme so zu konzipieren, dass sie sich nicht nur für Tier-1-Anwendungen, sondern zur Speicherung aller Daten im Rechenzentrum verwenden lassen. Das Ziel, dessen Erreichung vor allem die Anschaffungskosten im Weg standen, lautete: All-Flash-Data Center. Wie sieht es in der Praxis aus? Ein deutsches Handelsunternehmen berichtet erstmals über seine Alltagserfahrungen.