Fachartikel

Infrastrukturdesign für Big Data und Echtzeitanalysen (2)

Big Data und das Internet der Dinge sind mehr als nur Modeworte. Sie beschreiben komplexe Computertrends, die klassische Analyseplattformen wie Datenlager sowohl verdrängen als auch erweitern. Die damit verbundenen Ansprüche hinsichtlich Performance und Verfügbarkeit erhöhen den Druck auf die Storage-Systeme. Wie unser Beitrag zeigt, ist es selbst mit All-Flash-Arrays nicht immer einfach, die Anforderungen an Dichte und Kosten zu erfüllen. Im zweiten Teil des Fachartikels gehen wir konkret auf moderne Speicherarchitekturen ein, die im Zeitalter großer Datenmenge für Performance und Effizienz sorgen. Dabei werfen wir einen besonderen Blick auf Flash-Speicher und den aktuellen Technologiestand.
Auch wenn es immer mehr Daten zu speichern gilt, werden Flash-Speicher im Rechenzentrum immer konkurrenzfähiger.
Die Konsolidierung der Workloads durch die Virtualisierung hat den Druck auf die Speicherarrays erhöht. Viele Datenbank- und Speicheradministratoren erwarten von einer Festplatte, dass ein Schreibvorgang in weniger als fünf Millisekunden (ms) und ein Lesevorgang in weniger als 10 ms abgeschlossen ist. Mit der Einführung der Virtualisierung und dem Aufkommen größerer Datensets, die zu mehr Druck auf die Speicherarrays führten, sind diese Latenzen mit der Zeit immer länger geworden. In vielen virtuellen Umgebungen haben sich die typischen Angaben auf 20 ms für Schreibvorgänge und 40 ms für Lesevorgänge verschoben.

Zu dieser Zunahme ist es gekommen, weil es unerschwinglich war, Festplatten-Arrays zu erstellen, die eine riesige Zahl an IOPs und gleichzeitig geringe Latenzen aufweisen konnten. Die einzige Möglichkeit, das zu erreichen, ist das Hinzufügen weiterer Spindeln, also weiterer Festplatten, was Anschaffungskosten und Betriebskosten für Strom, Kühlung und zusätzlichen Platzbedarf zur Folge hat. Um die maximale Leistung von Festplatten abzurufen, nutzen viele Speicheradministratoren das so genannte "Short Stroking", was die Gesamtkapazität des Speicherarrays reduziert und in der Folge die Speicherkosten pro TByte in die Höhe treibt.
Flash wird zum Mainstream
Als Solid-State-Laufwerke (SSD) Anfang des 21. Jahrhunderts allmählich begannen, zum Mainstream zu werden, gab es zunächst einige Bedenken. So konnten die ersten SSDs nur einer geringen Zahl an Schreibvorgängen standhalten und waren im Vergleich zu anderen Medien extrem kostenintensiv. Daher stellten diese ersten SSD-Speichergeräte eigentlich nur für geschäftskritische Workloads eine angemessene Investition dar. Über die Zeit haben sich jedoch einige Dinge geändert, sodass SSDs beziehungsweise Flash-Speicher heute zum Standardspeicher für die meisten Workloads geworden sind.

Denn auch die Kosten sind erheblich gesunken, wie ein Blick auf den Verbrauchermarkt für Flash-Speicher zeigt: Mitte 2016 war ein internes Flash-Laufwerk mit einer Kapazität von 1 TByte für weniger als 300 US-Dollar zu haben, während dasselbe Gerät zwei Jahre zuvor mehr als 2000 US-Dollar gekostet hätte. Zudem hat sich die Schreibleistung verbessert und bei Enterprise-Speicherarrays kann der Controller zudem die Schreibvorgänge verteilen, um die Abnutzung möglichst gleichmäßig zu halten – das so genannten Wear Leveling. Dabei werden die Schreibvorgänge auf die Speichergeräte in einem Array verteilt, wodurch eine Zuverlässigkeit entsteht, die in vielen Fällen höher als die von Festplatten-Laufwerken (HDD) ist. Schließlich wurden Speicherarrays zudem mit zusätzlichen Funktionen wie Inline-Komprimierung, Deduplizierung und Verschlüsselung ausgestattet, die einen zusätzlichen Mehrwert bieten.

Das macht eine moderne Speicherarchitektur aus
Auch die Speichernetzwerke haben sich weiterentwickelt, um die ständig neuen Anforderungen von Workloads zu erfüllen. Ein Paradebeispiel für moderne Speicherarchitekturen ist das Storage Area Network (SAN), das sich entwickelt hat, als die Datenvolumina begannen, die Kapazität eines einzelnen Servers zu übersteigen. SANs bieten Vorteile wie hohe Verfügbarkeit, Komprimierung und potenzielle Leistung – doch der wichtigste Vorteil ist zweifelsohne die Fähigkeit, große Datenmengen zu speichern.

Leistungsfähige Storage Controller
Unter dem Netzwerk liegt das Herz des SAN – die Controller und Speicherarrays. Der Controller ist ein spezieller Computer mit einem eigenen Betriebssystem für das Speichermanagement und die Kommunikation mit den Hostsystemen (Clients). Eine der wichtigsten Funktionen des Controllers in allen Konfigurationen ist das Caching. Der Storage Controller enthält wie jeder andere Rechner eine CPU und RAM. Das RAM hat die äußerst wichtige Aufgabe, Lese- und Schreibvorgänge des darunter liegenden Speicherarrays zwischenzuspeichern, um die Belastung der Speichergeräte zu reduzieren.

Ein Speicherarray besteht aus einer großen Zahl an Speichergeräten (Festplatten, Solid State oder eine Kombination aus beidem), die zur Datensicherung in RAID-Form angeordnet sind. Die Controller und Speicherarrays arbeiten Hand in Hand, um Informationen an das SAN zu schicken. Viele Anbieter haben automatisierte Tiering-Technologien integriert, um eine gleichbleibende Leistung in einem SAN zu erzielen. Dafür bedarf es zwei bis drei unterschiedlicher Speichergeräte (meistens Flash, Festplatten mit 15k RPM und langsamere aber dichtere Festplatten mit 7200 RPM), die in Pools zusammengefasst werden. Dann verschiebt das System kleine Speicherblocks je nach ihrer Lesehäufigkeit auf Tiers mit höherer oder geringerer Leistung. Das kann natürlich funktionieren. Nur leider sind Datenzugriffsmuster ziemlich unvorhersehbar. Diese Art des automatischen Tierings ist daher nicht immer die beste Art, begrenzte Flash-Ressourcen zu nutzen.

Flash-Speicher verstehen
Flash-Speicher sind nichtflüchtige, programmierbare Speicher, auf die elektronisch zugegriffen wird. Der erste Flash-Speicher wurde in den 1980ern von Toshiba als neuartige Speicherzelle unter dem Namen E2PROM entwickelt. Der größte Nachteil des E2PROM waren seine unglaublich hohen Kosten. Ende der 1980er entwickelte das Unternehmen eine neuartige Architektur mit dem Namen NAND, deren Preis pro Bit wesentlich geringer war. Außerdem verfügte sie über eine höhere Kapazität und zahlreiche Leistungsverbesserungen. Obwohl die NAND Architektur damals noch immer sehr teuer war, war sie im Vergleich zu den E2PROM Zellen dennoch recht preiswert.

Die NAND-Technologie gilt als Vorläufer der modernen Flash-Untersysteme. Jede Flash-Speicherart hat ihre Vor- und Nachteile, meistens in der Form von Kompromissen zwischen Kosten, Dichte, Performance und Schreibbeständigkeit. Bei der Auswahl einer Flash-Speicherarchitektur müssen Sie diese Faktoren beachten und überlegen, welche Aspekte für Ihre Umgebung und Anforderungen besonders wichtig sind.

Seite 1: Flash wird zum Mainstream
Seite 2: Inline-Komprimierung und Deduplizierung


Seite 1 von 2 Nächste Seite >>
22.03.2017/ln/Tobias Engmann, SE Manager DACH bei Tegile Systems

Nachrichten

Durchsatzstarker Storage [8.09.2020]

Hewlett Packard Enterprise bringt die sechste Generation seines Einstiegs-Speichersystems "HPE Modular Smart Array" auf den Markt. Diese kommt mit einer neuen Hard- und Software-Architektur, die unter anderem deutlich mehr Leistung als die Vorgängergeneration verspricht. [mehr]

Neue Mini-SSD von Verbatim [7.09.2020]

Verbatim bringt die Store'n'Go-Mini-SSD nach Deutschland. Die sehr kleine, transportable SSD mit schwarzen 3D-Oberflächendesign ist in den Kapazitäten 512 GByte und 1 TByte verfügbar und wiegt 35 Gramm. Dank USB 3.2 Gen 1 Anschluss sind Übertragungsgeschwindigkeiten von bis zu 5 GBit/s möglich. [mehr]

Tipps & Tools

Im Test: EnterpriseDB Postgres [30.07.2020]

In vielen Unternehmen gilt eine Art Datenbank-Oligopol: Entweder kommt Oracle oder MySQL zum Einsatz. EnterpriseDB will das mit seiner gleichnamigen PostgreSQL-Distribution ändern. EnterpriseDB Postgres erwies sich im Test als robuste relationale Datenbank mit vielen Enterprise-Features, die sich hinter Oracle & Co. keineswegs zu verstecken brauchen. Vor allem in Sachen Migration und Kompatibilität konnte uns die Plattform überzeugen und auch das Backup-Tool erhielt unsere Zustimmung. [mehr]

Hochverfügbare SQL-Cluster in der Google-Cloud [23.07.2020]

SQL-Server-Failovercluster-Instanzen stellen die Hochverfügbarkeit von SQL-Servern sicher. Um der Anforderung an gemeinsam nutzbaren Speicher in der Google-Cloud gerecht zu werden, empfiehlt der Cloudprovider Storage Spaces Direct. Die Krux dabei: Die Einrichtung erfordert, dass sich alle VMs und der Speicher im selben Rechenzentrum befinden. Hochverfügbarkeit gewährleistet Google jedoch nur bei standortübergreifenden Konfigurationen. Wie sich dieses Dilemma lösen lässt, verrät unsere Schritt-für-Schritt-Anleitung. [mehr]

Buchbesprechung

Microsoft Office 365

von Markus Widl

Anzeigen