Grundlagen

Verteilter Storage

Für Datenmengen im Petabyte-Bereich müssen neue Lösungen her. Ein Ansatz sind verteilte Dateisysteme, die hohe Kapazität, Redundanz und Performance vereinen. Hierbei gibt es einige Ansätze in der Open Source-Welt wie auch als kommerzielle Produkte.
Zu den Binsenweisheiten der IT gehört, dass die in Unternehmen angehäuften Datenberge rasant wachsen. Wer sie bezwingen möchte, dem stehen viele Wege offen, die meist über Storage-Lösungen der einschlägigen Hersteller führen. Meist sind dies klassische Storage-Arrays, die die große Speicherkapazität und Datensicherheit durch RAID-Systeme oder proprietäre Varianten davon sicherstellen. Ihnen gemeinsam ist das Bauprinzip: viele Platten in einer großen Box.

Dass es auch anders geht, zeigen diverse Projekte und Firmen, die mit Lösungen zum verteilten Storage im Netz antreten. Hierbei übernehmen einzelne Rechner die Rolle eines Storage-Knotens, der einzelne Festplatten oder durchaus auch RAID-Systeme enthalten können. Je nach Lösung werden Redundanz, Performance und Skalierbarkeit dadurch hergestellt, dass es viele solcher Speicherknoten gibt. Geht etwa der Speicherplatz zur Neige, kann der Administrator mit Hardware von der Stange einen neuen Knoten dem System hinzufügen.

Es handelt sich aber nicht um zentralistische Systeme nach Art von Samba oder NFS, sondern die Daten sind über viele Rechner verteilt, die alle zusammen die Clients bedienen. Somit gibt es keinen zentrale Anlaufstelle, die bei einer großen Zahl von Clients zum Bottleneck werden kann. Bei der Terminologie gibt es leider keine Einigkeit, denn während manche parallele und verteilte Dateisysteme unterscheiden, werfen andere sie in einen Topf, und auch die Projekte selber beschreiben sich zum Teil als "verteilte parallele Dateisysteme".

Ein Vertreter dieser Gattung ist GlusterFS, das unter einer Open Source-Lizenz frei verfügbar ist. Red Hat hat die dahinter stehende Firma gekauft und auf GlusterFS basierend das Produkt Red Hat Storage entwickelt. Den auf einem Rechner verfügbaren Speicher zerlegt GlusterFS in sogenannte Bricks, die es als kleinstes Element seines Storage verwaltet. Legt ein Anwender Daten in einem GlusterFS-Storage ab, verteilt GlusterFS sie nach einem Algorithmus auf die einzelnen Knoten. Alternativ speichert GlusterFS sie auch auf mehreren Knoten redundant ab, um die Ausfallsicherheit zu erhöhen. Metadaten speichert GlusterFS ebenso verteilt, benutzt also keine dedizierten Metadaten-Server, die im Zweifelsfall redundant auszulegen wären. 

Für den Zugriff auf die Daten bietet GlusterFS einen NFS-Server oder eine FUSE-Schnittstelle für die Anbindung an ein Linux-System. Außerdem gibt es ein VFS-Modul, das den Einsatz als Backend für einen Samba-Server erlaubt. GlusterFS gilt als ausgereift und eignet sich nach allgemeiner Meinung für den produktiven Einsatz, auch wenn es bei großen Datenmengen zu Performance-Problemen kommen kann.

Eine Alternative zu GlusterFS ist Ceph, das sich ebenfalls mittlerweile im Besitz von Red Hat befindet, aber auch unter einer freien Lizenz verfügbar ist. Dabei handelt es sich um einen sogenannten Object Store, der Daten in Binär-Objekte zerlegt und speichert, ähnlich wie etwa auch OpenStack Swift und Amazon S3 es tun. Diese Objekte können wie bei GlusterFS über mehrere Rechner verteilt sein.

Auch bei Ceph gibt es mehrere Anwendungsschnittstellen: Einen Linux-Dateisystemtreiber namens CephFS, das Rados Block Device (RDB), das blockbasierten Zugriff bietet, und eine REST-Schnittstelle ähnlich wie Amazon S3. Obwohl Ceph bereits in vielen Produkten enthalten ist, bestehen dennoch derzeit (Stand Ende 2014) noch begründete Zweifel an seiner Stabilität. Im Gegensatz zu GlusterFS gibt es bei Ceph sind die Metadaten auf dedizierten Knoten gespeichert, die jedoch redundant ausgelegt sind.

Eine weitere Open Source-Alternative zu den beiden Ansätzen ist XtreemFS, das die Entwickler wegen seiner leichten Skalierbarkeit unter anderem als Cloud-Dateisystem anpreisen. Neben der normalen Replikation bietet XtreemFS auch einen Read-Only-Mode, der sich etwa zum Aufbau eines Dateisystem-Cache eignet. Zudem besitzt XtreemFS eingebaute Verschlüsselungsmechanismen, die den Betrieb übers Internet auch ohne VPN ermöglichen. Mittlerweile haben die XtreemFS-Entwickler eine eigene Firma gegründet, mit der sie eine Weiterentwicklung des Dateisystems unter dem Namen Quobyte als kommerzielles Produkt anbieten.
29.10.2014/of

Nachrichten

Schnell im Multi-PByte-Bereich [1.06.2022]

Infinidat lüftet mit der "InfiniBox SSA II" den Vorhang für die zweite Generation seiner Solid-State-Arrays. Gegenüber den vorherigen Modellen soll der Neuzgang erhebliche Verbesserungen bei Leistung, AIOps und Effizienz bieten. So verfügt das System mit 35 Mikrosekunden laut Hersteller über eine geringere Latenz als jede andere vergleichbare Enterprise-Storage-Plattform. [mehr]

Dell unterzieht Speichersysteme umfrangreichem Softwareupdate [4.05.2022]

Auf der Dell Technologies World 2022 in Las Vegas hat der Hersteller ein umfangreiches Softwareupdate seines Storage-Portfolios vorgestellt. Insgesamt will Dell über 500 neue Features in seine Produktlinien PowerStore, PowerMax und PowerFlex integriert haben. Entscheidende Neuerungen gibt es in den Bereichen VMware-Integration, Cyberresilienz und File-Services. [mehr]

KMU-Datenlager [31.03.2022]

Simpel sichern [29.03.2022]

Tipps & Tools

Download der Woche: Hasleo Backup Suite [29.06.2022]

In puncto Backup ist es immer gut, ein Werkzeug in seiner Sammlung zu wissen, das viel Arbeit in einem Durchgang erledigen kann. Genau das ist die Stärke der kostenfrei erhältlichen "Hasleo Backup Suite": Sie sichert die Windows-Partitionen sämtlicher Festplatten in einem Rutsch – inklusive eines vollständigen Abbilds Ihres OS. [mehr]

Plakative Backup-Erinnerungsstütze [18.06.2022]

Eine Möglichkeit, um als IT-Administrator seinen Arbeitsalltag zu entschleunigen, ist es, die Anwender zum richtigen IT-Umgang zu erziehen. Das gilt gerade auch für jene User, die regelmäßig Hilfe erflehen, weil sie wieder einmal ihre Datensicherung vergessen haben. Hier kann das Blechschild "Kein Backup – kein Mitleid" wichtige kommunikative wie prophylaktische Dienste leisten. [mehr]

Buchbesprechung

Kerberos

von Mark Pröhl und Daniel Kobras

Anzeigen