Verteilter Storage

Lesezeit
2 Minuten
Bis jetzt gelesen

Verteilter Storage

29.10.2014 - 15:36
Veröffentlicht in:
Für Datenmengen im Petabyte-Bereich müssen neue Lösungen her. Ein Ansatz sind verteilte Dateisysteme, die hohe Kapazität, Redundanz und Performance vereinen. Hierbei gibt es einige Ansätze in der Open Source-Welt wie auch als kommerzielle Produkte.
Zu den Binsenweisheiten der IT gehört, dass die in Unternehmen angehäuften Datenberge rasant wachsen. Wer sie bezwingen möchte, dem stehen viele Wege offen, die meist über Storage-Lösungen der einschlägigen Hersteller führen. Meist sind dies klassische Storage-Arrays, die die große Speicherkapazität und Datensicherheit durch RAID-Systeme oder proprietäre Varianten davon sicherstellen. Ihnen gemeinsam ist das Bauprinzip: viele Platten in einer großen Box.

Dass es auch anders geht, zeigen diverse Projekte und Firmen, die mit Lösungen zum verteilten Storage im Netz antreten. Hierbei übernehmen einzelne Rechner die Rolle eines Storage-Knotens, der einzelne Festplatten oder durchaus auch RAID-Systeme enthalten können. Je nach Lösung werden Redundanz, Performance und Skalierbarkeit dadurch hergestellt, dass es viele solcher Speicherknoten gibt. Geht etwa der Speicherplatz zur Neige, kann der Administrator mit Hardware von der Stange einen neuen Knoten dem System hinzufügen.

Es handelt sich aber nicht um zentralistische Systeme nach Art von Samba oder NFS, sondern die Daten sind über viele Rechner verteilt, die alle zusammen die Clients bedienen. Somit gibt es keinen zentrale Anlaufstelle, die bei einer großen Zahl von Clients zum Bottleneck werden kann. Bei der Terminologie gibt es leider keine Einigkeit, denn während manche parallele und verteilte Dateisysteme unterscheiden, werfen andere sie in einen Topf, und auch die Projekte selber beschreiben sich zum Teil als "verteilte parallele Dateisysteme".

Ein Vertreter dieser Gattung ist GlusterFS, das unter einer Open Source-Lizenz frei verfügbar ist. Red Hat hat die dahinter stehende Firma gekauft und auf GlusterFS basierend das Produkt Red Hat Storage entwickelt. Den auf einem Rechner verfügbaren Speicher zerlegt GlusterFS in sogenannte Bricks, die es als kleinstes Element seines Storage verwaltet. Legt ein Anwender Daten in einem GlusterFS-Storage ab, verteilt GlusterFS sie nach einem Algorithmus auf die einzelnen Knoten. Alternativ speichert GlusterFS sie auch auf mehreren Knoten redundant ab, um die Ausfallsicherheit zu erhöhen. Metadaten speichert GlusterFS ebenso verteilt, benutzt also keine dedizierten Metadaten-Server, die im Zweifelsfall redundant auszulegen wären. 

Für den Zugriff auf die Daten bietet GlusterFS einen NFS-Server oder eine FUSE-Schnittstelle für die Anbindung an ein Linux-System. Außerdem gibt es ein VFS-Modul, das den Einsatz als Backend für einen Samba-Server erlaubt. GlusterFS gilt als ausgereift und eignet sich nach allgemeiner Meinung für den produktiven Einsatz, auch wenn es bei großen Datenmengen zu Performance-Problemen kommen kann.

Eine Alternative zu GlusterFS ist Ceph, das sich ebenfalls mittlerweile im Besitz von Red Hat befindet, aber auch unter einer freien Lizenz verfügbar ist. Dabei handelt es sich um einen sogenannten Object Store, der Daten in Binär-Objekte zerlegt und speichert, ähnlich wie etwa auch OpenStack Swift und Amazon S3 es tun. Diese Objekte können wie bei GlusterFS über mehrere Rechner verteilt sein.

Auch bei Ceph gibt es mehrere Anwendungsschnittstellen: Einen Linux-Dateisystemtreiber namens CephFS, das Rados Block Device (RDB), das blockbasierten Zugriff bietet, und eine REST-Schnittstelle ähnlich wie Amazon S3. Obwohl Ceph bereits in vielen Produkten enthalten ist, bestehen dennoch derzeit (Stand Ende 2014) noch begründete Zweifel an seiner Stabilität. Im Gegensatz zu GlusterFS gibt es bei Ceph sind die Metadaten auf dedizierten Knoten gespeichert, die jedoch redundant ausgelegt sind.

Eine weitere Open Source-Alternative zu den beiden Ansätzen ist XtreemFS, das die Entwickler wegen seiner leichten Skalierbarkeit unter anderem als Cloud-Dateisystem anpreisen. Neben der normalen Replikation bietet XtreemFS auch einen Read-Only-Mode, der sich etwa zum Aufbau eines Dateisystem-Cache eignet. Zudem besitzt XtreemFS eingebaute Verschlüsselungsmechanismen, die den Betrieb übers Internet auch ohne VPN ermöglichen. Mittlerweile haben die XtreemFS-Entwickler eine eigene Firma gegründet, mit der sie eine Weiterentwicklung des Dateisystems unter dem Namen Quobyte als kommerzielles Produkt anbieten.


of

Mehr zu diesem Thema erfahren Sie in der November-Ausgabe des IT-Administrator mit dem Schwerpunkt "Storage".

Tags

Ähnliche Beiträge

Speicherreplikation in Windows Server

Eine der wichtigsten neuen Funktionen in Windows Server 2016 ist die Speicherreplikation, von Microsoft als Storage Replica bezeichnet. Mit dieser Technologie lassen sich ganze Festplatten blockbasiert zwischen Servern replizieren, auch zwischen verschiedenen Rechenzentren sowie der Cloud und einem Rechenzentrum. Wir erklären, was Storage Replica zu bieten hat und wie sie funktioniert.