Grundlagen

Verteilter Storage

Für Datenmengen im Petabyte-Bereich müssen neue Lösungen her. Ein Ansatz sind verteilte Dateisysteme, die hohe Kapazität, Redundanz und Performance vereinen. Hierbei gibt es einige Ansätze in der Open Source-Welt wie auch als kommerzielle Produkte.
Zu den Binsenweisheiten der IT gehört, dass die in Unternehmen angehäuften Datenberge rasant wachsen. Wer sie bezwingen möchte, dem stehen viele Wege offen, die meist über Storage-Lösungen der einschlägigen Hersteller führen. Meist sind dies klassische Storage-Arrays, die die große Speicherkapazität und Datensicherheit durch RAID-Systeme oder proprietäre Varianten davon sicherstellen. Ihnen gemeinsam ist das Bauprinzip: viele Platten in einer großen Box.

Dass es auch anders geht, zeigen diverse Projekte und Firmen, die mit Lösungen zum verteilten Storage im Netz antreten. Hierbei übernehmen einzelne Rechner die Rolle eines Storage-Knotens, der einzelne Festplatten oder durchaus auch RAID-Systeme enthalten können. Je nach Lösung werden Redundanz, Performance und Skalierbarkeit dadurch hergestellt, dass es viele solcher Speicherknoten gibt. Geht etwa der Speicherplatz zur Neige, kann der Administrator mit Hardware von der Stange einen neuen Knoten dem System hinzufügen.

Es handelt sich aber nicht um zentralistische Systeme nach Art von Samba oder NFS, sondern die Daten sind über viele Rechner verteilt, die alle zusammen die Clients bedienen. Somit gibt es keinen zentrale Anlaufstelle, die bei einer großen Zahl von Clients zum Bottleneck werden kann. Bei der Terminologie gibt es leider keine Einigkeit, denn während manche parallele und verteilte Dateisysteme unterscheiden, werfen andere sie in einen Topf, und auch die Projekte selber beschreiben sich zum Teil als "verteilte parallele Dateisysteme".

Ein Vertreter dieser Gattung ist GlusterFS, das unter einer Open Source-Lizenz frei verfügbar ist. Red Hat hat die dahinter stehende Firma gekauft und auf GlusterFS basierend das Produkt Red Hat Storage entwickelt. Den auf einem Rechner verfügbaren Speicher zerlegt GlusterFS in sogenannte Bricks, die es als kleinstes Element seines Storage verwaltet. Legt ein Anwender Daten in einem GlusterFS-Storage ab, verteilt GlusterFS sie nach einem Algorithmus auf die einzelnen Knoten. Alternativ speichert GlusterFS sie auch auf mehreren Knoten redundant ab, um die Ausfallsicherheit zu erhöhen. Metadaten speichert GlusterFS ebenso verteilt, benutzt also keine dedizierten Metadaten-Server, die im Zweifelsfall redundant auszulegen wären. 

Für den Zugriff auf die Daten bietet GlusterFS einen NFS-Server oder eine FUSE-Schnittstelle für die Anbindung an ein Linux-System. Außerdem gibt es ein VFS-Modul, das den Einsatz als Backend für einen Samba-Server erlaubt. GlusterFS gilt als ausgereift und eignet sich nach allgemeiner Meinung für den produktiven Einsatz, auch wenn es bei großen Datenmengen zu Performance-Problemen kommen kann.

Eine Alternative zu GlusterFS ist Ceph, das sich ebenfalls mittlerweile im Besitz von Red Hat befindet, aber auch unter einer freien Lizenz verfügbar ist. Dabei handelt es sich um einen sogenannten Object Store, der Daten in Binär-Objekte zerlegt und speichert, ähnlich wie etwa auch OpenStack Swift und Amazon S3 es tun. Diese Objekte können wie bei GlusterFS über mehrere Rechner verteilt sein.

Auch bei Ceph gibt es mehrere Anwendungsschnittstellen: Einen Linux-Dateisystemtreiber namens CephFS, das Rados Block Device (RDB), das blockbasierten Zugriff bietet, und eine REST-Schnittstelle ähnlich wie Amazon S3. Obwohl Ceph bereits in vielen Produkten enthalten ist, bestehen dennoch derzeit (Stand Ende 2014) noch begründete Zweifel an seiner Stabilität. Im Gegensatz zu GlusterFS gibt es bei Ceph sind die Metadaten auf dedizierten Knoten gespeichert, die jedoch redundant ausgelegt sind.

Eine weitere Open Source-Alternative zu den beiden Ansätzen ist XtreemFS, das die Entwickler wegen seiner leichten Skalierbarkeit unter anderem als Cloud-Dateisystem anpreisen. Neben der normalen Replikation bietet XtreemFS auch einen Read-Only-Mode, der sich etwa zum Aufbau eines Dateisystem-Cache eignet. Zudem besitzt XtreemFS eingebaute Verschlüsselungsmechanismen, die den Betrieb übers Internet auch ohne VPN ermöglichen. Mittlerweile haben die XtreemFS-Entwickler eine eigene Firma gegründet, mit der sie eine Weiterentwicklung des Dateisystems unter dem Namen Quobyte als kommerzielles Produkt anbieten.
29.10.2014/of

Nachrichten

PCIe-4.0-NVMe-SSD von Samsung [22.09.2020]

Samsung Electronics präsentiert mit der 980 PRO eine PCIe-4.0-NVMe-SSD. Diese liefert sequentielle Lese- und Schreibgeschwindigkeiten von bis zu 7000 MByte/s beziehungsweise 5000 MByte/s. Damit arbeitet das Modell doppelt so schnell wie NVMe-SSDs der dritten PCIe-Generation und bis zu 12,7 mal schneller als SATA-SSDs. [mehr]

Durchsatzstarker Storage [8.09.2020]

Hewlett Packard Enterprise bringt die sechste Generation seines Einstiegs-Speichersystems "HPE Modular Smart Array" auf den Markt. Diese kommt mit einer neuen Hard- und Software-Architektur, die unter anderem deutlich mehr Leistung als die Vorgängergeneration verspricht. [mehr]

Tipps & Tools

Im Test: EnterpriseDB Postgres [30.07.2020]

In vielen Unternehmen gilt eine Art Datenbank-Oligopol: Entweder kommt Oracle oder MySQL zum Einsatz. EnterpriseDB will das mit seiner gleichnamigen PostgreSQL-Distribution ändern. EnterpriseDB Postgres erwies sich im Test als robuste relationale Datenbank mit vielen Enterprise-Features, die sich hinter Oracle & Co. keineswegs zu verstecken brauchen. Vor allem in Sachen Migration und Kompatibilität konnte uns die Plattform überzeugen und auch das Backup-Tool erhielt unsere Zustimmung. [mehr]

Hochverfügbare SQL-Cluster in der Google-Cloud [23.07.2020]

SQL-Server-Failovercluster-Instanzen stellen die Hochverfügbarkeit von SQL-Servern sicher. Um der Anforderung an gemeinsam nutzbaren Speicher in der Google-Cloud gerecht zu werden, empfiehlt der Cloudprovider Storage Spaces Direct. Die Krux dabei: Die Einrichtung erfordert, dass sich alle VMs und der Speicher im selben Rechenzentrum befinden. Hochverfügbarkeit gewährleistet Google jedoch nur bei standortübergreifenden Konfigurationen. Wie sich dieses Dilemma lösen lässt, verrät unsere Schritt-für-Schritt-Anleitung. [mehr]

Buchbesprechung

Microsoft Office 365

von Markus Widl

Anzeigen