Grundlagen

Verteilter Storage

Für Datenmengen im Petabyte-Bereich müssen neue Lösungen her. Ein Ansatz sind verteilte Dateisysteme, die hohe Kapazität, Redundanz und Performance vereinen. Hierbei gibt es einige Ansätze in der Open Source-Welt wie auch als kommerzielle Produkte.
Zu den Binsenweisheiten der IT gehört, dass die in Unternehmen angehäuften Datenberge rasant wachsen. Wer sie bezwingen möchte, dem stehen viele Wege offen, die meist über Storage-Lösungen der einschlägigen Hersteller führen. Meist sind dies klassische Storage-Arrays, die die große Speicherkapazität und Datensicherheit durch RAID-Systeme oder proprietäre Varianten davon sicherstellen. Ihnen gemeinsam ist das Bauprinzip: viele Platten in einer großen Box.

Dass es auch anders geht, zeigen diverse Projekte und Firmen, die mit Lösungen zum verteilten Storage im Netz antreten. Hierbei übernehmen einzelne Rechner die Rolle eines Storage-Knotens, der einzelne Festplatten oder durchaus auch RAID-Systeme enthalten können. Je nach Lösung werden Redundanz, Performance und Skalierbarkeit dadurch hergestellt, dass es viele solcher Speicherknoten gibt. Geht etwa der Speicherplatz zur Neige, kann der Administrator mit Hardware von der Stange einen neuen Knoten dem System hinzufügen.

Es handelt sich aber nicht um zentralistische Systeme nach Art von Samba oder NFS, sondern die Daten sind über viele Rechner verteilt, die alle zusammen die Clients bedienen. Somit gibt es keinen zentrale Anlaufstelle, die bei einer großen Zahl von Clients zum Bottleneck werden kann. Bei der Terminologie gibt es leider keine Einigkeit, denn während manche parallele und verteilte Dateisysteme unterscheiden, werfen andere sie in einen Topf, und auch die Projekte selber beschreiben sich zum Teil als "verteilte parallele Dateisysteme".

Ein Vertreter dieser Gattung ist GlusterFS, das unter einer Open Source-Lizenz frei verfügbar ist. Red Hat hat die dahinter stehende Firma gekauft und auf GlusterFS basierend das Produkt Red Hat Storage entwickelt. Den auf einem Rechner verfügbaren Speicher zerlegt GlusterFS in sogenannte Bricks, die es als kleinstes Element seines Storage verwaltet. Legt ein Anwender Daten in einem GlusterFS-Storage ab, verteilt GlusterFS sie nach einem Algorithmus auf die einzelnen Knoten. Alternativ speichert GlusterFS sie auch auf mehreren Knoten redundant ab, um die Ausfallsicherheit zu erhöhen. Metadaten speichert GlusterFS ebenso verteilt, benutzt also keine dedizierten Metadaten-Server, die im Zweifelsfall redundant auszulegen wären. 

Für den Zugriff auf die Daten bietet GlusterFS einen NFS-Server oder eine FUSE-Schnittstelle für die Anbindung an ein Linux-System. Außerdem gibt es ein VFS-Modul, das den Einsatz als Backend für einen Samba-Server erlaubt. GlusterFS gilt als ausgereift und eignet sich nach allgemeiner Meinung für den produktiven Einsatz, auch wenn es bei großen Datenmengen zu Performance-Problemen kommen kann.

Eine Alternative zu GlusterFS ist Ceph, das sich ebenfalls mittlerweile im Besitz von Red Hat befindet, aber auch unter einer freien Lizenz verfügbar ist. Dabei handelt es sich um einen sogenannten Object Store, der Daten in Binär-Objekte zerlegt und speichert, ähnlich wie etwa auch OpenStack Swift und Amazon S3 es tun. Diese Objekte können wie bei GlusterFS über mehrere Rechner verteilt sein.

Auch bei Ceph gibt es mehrere Anwendungsschnittstellen: Einen Linux-Dateisystemtreiber namens CephFS, das Rados Block Device (RDB), das blockbasierten Zugriff bietet, und eine REST-Schnittstelle ähnlich wie Amazon S3. Obwohl Ceph bereits in vielen Produkten enthalten ist, bestehen dennoch derzeit (Stand Ende 2014) noch begründete Zweifel an seiner Stabilität. Im Gegensatz zu GlusterFS gibt es bei Ceph sind die Metadaten auf dedizierten Knoten gespeichert, die jedoch redundant ausgelegt sind.

Eine weitere Open Source-Alternative zu den beiden Ansätzen ist XtreemFS, das die Entwickler wegen seiner leichten Skalierbarkeit unter anderem als Cloud-Dateisystem anpreisen. Neben der normalen Replikation bietet XtreemFS auch einen Read-Only-Mode, der sich etwa zum Aufbau eines Dateisystem-Cache eignet. Zudem besitzt XtreemFS eingebaute Verschlüsselungsmechanismen, die den Betrieb übers Internet auch ohne VPN ermöglichen. Mittlerweile haben die XtreemFS-Entwickler eine eigene Firma gegründet, mit der sie eine Weiterentwicklung des Dateisystems unter dem Namen Quobyte als kommerzielles Produkt anbieten.
29.10.2014/of

Nachrichten

Enterprise-NAS mit SSD-Caching von QNAP [24.06.2019]

QNAP erweitert sein Portfolio an Unternehmens-NAS um das "TDS-16489U R2". Das Enterprise-Modell arbeitet mit zwei Intel Xeon E5-2600 v4-Prozessoren und dem Dual-Betriebssystem QES/QTS. SSD-Caching und Tiering sollen für schnelle Zugriffszeiten sorgen. [mehr]

QNAP präsentiert neues Enterprise-ZFS-NAS [12.06.2019]

QNAP bringt ein neues NAS auf den Markt: Das "ES1686dc" mit Intel-Xeon-E5-Prozessor, zwei aktiven Controllern sowie Unterstützung von Virtualisierungsumgebungen und 12-GBit-SAS. Das Speichersystem arbeitet mit dem Betriebssystem QES 2.1.0 und soll somit zuverlässige Datensicherungs-, wiederherstellungs- und Business-Class-Funktionen bieten. [mehr]

Tipps & Tools

Vorschau Juli 2019: Moderne Storage-Architekturen [24.06.2019]

Storage-Technologien bieten Unternehmen immer neue Möglichkeiten zur flexiblen Datenhaltung, die angesichts der wachsenden Datenberge auch dringend geboten sind. Im Juli dreht sich der Schwerpunkt des IT-Administrator rund um "Moderne Storage-Architekturen". Darin erhalten Sie einen aktuellen Überblick zu Technologien für die Datenvirtualisierung. Außerdem lesen Sie, wie Sie Objektspeicher und Software-defined Storage richtig planen und welche Neuerungen in AWS S3 auf Sie warten. In den Produkttests stellt unter anderem der PoINT Storage Manager sein Können unter Beweis. [mehr]

Kostenfreier und funktionsreicher Cloudspeicher [21.06.2019]

Die große Anzahl an kostenfreien Cloudspeichern vernebelt auch erfahrenen Usern die Sicht. Mit dem kostenfreien "pCloud Drive" können Sie aber nicht viel falsch machen, da das Tool sowohl ein externes Laufwerk in Windows einrichtet als auch sämtliche Ordner miteinander synchronisiert. Der Speicherplatz ist mit 10 GByte für das Teilen von Dateien in Arbeitsgruppen völlig ausreichend. [mehr]

Buchbesprechung

Anzeigen