Fachartikel

Tipps für ein ausfallsicheres Rechenzentrum

Ein betriebssicheres Rechenzentrum ist für Unternehmen von existenzieller Bedeutung. Dieser Artikel schildert, wie der Betreiber eines Rechenzentrums feststellen kann, ob sein Data Center den aktuellen Anforderungen Stand hält oder ob es dringend Zeit ist, nachzubessern. Ziel ist dabei stets, Ausfallwahrscheinlichkeiten und Störanfälligkeiten des Rechenzentrums zu reduzieren. Wir geben Tipps, wie sich diese Anforderungen organisch berücksichtigen lassen.
Um die Ausfallsicherheit eines Rechenzentrums zu testen, sind auch Stresstests ein adäquates Mittel.
Fällt das Rechenzentrums aus, stehen zentrale Prozesse still. Jeder Augenblick des Ausfalls kostet – nicht nur Reputation und Kundenvertrauen, sondern auch viel Geld in Form von Produktions- und Serviceausfällen. Sicherheit und Hochverfügbarkeit des Rechenzentrums zählen zu den Grundvoraussetzungen des Unternehmenserfolgs. Es gibt zwar keinen hundertprozentigen Schutz vor Unterbrechungen, aber Organisationen können Sicherheit und Hochverfügbarkeit ihres Rechenzentrums zu einem Gutteil selbst beeinflussen. Mit der richtigen Strategie und mit geeigneten Maßnahmen sind Risiken zu identifizieren und zu minimieren.

Rechenzentrum muss mitwachsen
Häufig liegt die Ursache eines Ausfalls in einer mangelhaften oder überalterten Konzeption des Data Centers. Während Organisationen sich ständig dynamisch weiter entwickeln, werden IT-Kapazitäten und Sicherungsmaßnahmen im Rechenzentrum erfahrungsgemäß eher selten so vorausschauend geplant, dass sie automatisch mitwachsen oder sich flexibel an steigende Ansprüche anpassen lassen. Die Korrektur von Planungsfehlern, die bei einem bestehenden Rechenzentrum meist nur teuer und aufwendig zu beheben sind, wird deshalb gern immer wieder hinausgeschoben – was sich früher oder später rächen kann.

Deshalb: Besonders für Unternehmen, die ihre Produktpalette häufig modifizieren oder dynamische Hightech-Produkte fertigen, ist ein ausbaufähiges Rechenzentrum Pflicht. Auch die Anforderungen für eine spätere Zertifizierung oder hinsichtlich Branchenauflagen und Compliance gilt es zu prüfen, bevor der erste Spatenstich getan ist.

Expertenwissen hilft bei Planung und Betrieb
All das sind komplexe Aufgaben, die fachliches Know-how erfordern. Wer diese Ressourcen intern nicht zur Verfügung hat, dem ist zu raten, sich Unterstützung durch externe Dritte ins Haus zu holen. "Vor und während der Bauphase spart ein Experte für IT und Projektmanagement bares Geld, weil er die Fäden in der Hand hält, alle Anbieter kennt und über ein breites Wissen über Kosten und Laufzeiten verfügt", erklärt Manfred Thieben vom Team "Data Center Services" von TÜV Rheinland. Er und seine Kollegen befassen sich seit Jahren mit der Betriebssicherheit von Rechenzentren und decken als Spezialisten alle Disziplinen ab, die für die physikalische Sicherheit und Hochverfügbarkeit eines Rechenzentrums entscheidend sind, darunter Elektro- und Klimatechnik, Brand- und Einbruchschutz, Architektur, Organisation und Prozessmanagement.

Um die Sicherheit und Hochverfügbarkeit eines Data Centers objektiv beurteilen zu können, hat TÜV Rheinland den Kriterienkatalog "Betriebssicheres Rechenzentrum" erstellt. Er ist nicht nur ein wertvoller Leitfaden für Betreiber von Rechenzentren, sondern zugleich Grundlage für eine neutrale Einschätzung gegenüber Banken und Versicherungen, wenn es um eine Kreditvergabe und die damit verbundene Risikoeinstufung geht.

Best Practices in Katalogform
Der Katalog von TÜV Rheinland orientiert sich an internationalen Branchen-Normen wie der DIN EN ISO 50600, Uptime und TIA 942. Zudem ließen die TÜV Rheinland-Fachleute auch eigene Best-Practice-Erfahrungen einfließen. Der Standard enthält insgesamt 19 Anforderungen aus den Bereichen "Elektrische Versorgung", "Klimaversorgung", "Sicherheitstechnik" und "Wartung".

Bei Bedarf stehen die Spezialisten vom Team "Data Center Services" bereits beim Bau eines Rechenzentrums zur Verfügung oder begleiten den Betreiber auf dem Weg zur Zertifizierung. Sowohl die Planungsphase als auch die Vorbereitung auf die Zertifizierung nach international gültigen Normen sind kritische Meilensteine, die in allen Details vorauszudenken sind, um kostenträchtige Nachbesserungen zu vermeiden. Denn die ISO DIN EN 50600 stellt im Brandschutz ganz andere Ansprüche an ein Rechenzentrum als der vergleichbare Standard des BSI oder von Uptime. Während ein Zertifikat automatische Ventilschließungen von Leitungen verbietet, fordert dies ein anderes Audit ausdrücklich. Wer das nicht von vorneherein mit einplant, riskiert kostspielige Erweiterungen oder Rückbauten.

Stresstest fördert Schwächen zutage
Organisationen, die wissen wollen, wie robust ihr Rechenzentrum tatsächlich ist, sollten einen Stresstest durchführen lassen, etwa durch TÜV Rheinland. Die Experten erfassen den Ist-Zustand des Data Center und erstellen eine GAP-Analyse. Im Rahmen einer Begehung checken sie das Data Center anhand eines 30-seitigen Fragenkatalogs und prüfen mit einer Wärmebildkamera darüber hinaus mögliche Hotspots und die tatsächliche Auslastung. Zu den typischen Problemen gehört unter anderem die mangelnde Pufferung von Kälteenergie beziehungsweise der nicht unterbrechungsfreien Kälteversorgung. Ein heikles Problem, denn zusammen mit der schwankungsfreien Stromversorgung ist das eine wesentliche Grundlage für den fehlerlosen Server-Betrieb.

Ein häufige Schwäche ist auch der Brandschutz: Oft fehlen Einzäunungen für Außeneinheiten wie den Rückkühler oder die Absicherung per Schloss für das Notstromaggregat. Saboteure, die es auf eine physikalische Manipulation anlegen, haben hier leichtes Spiel. Der Stresstest beinhaltet auch Fragen nach grundlegenden Maßnahmen zur Perimeter-Sicherheit der Organisation, zum Beispiel: Gibt es einen Virenscanner, der regelmäßig upgedated wird und ein solides Passwort-Management?

Ein weiterer wichtiger Punkt des Stresstests sind die so genannten Co-Locations. Dabei handelt es sich um Ausweichrechenzentren, in dem die wichtigsten Software-Anwendungen eines Unternehmens gespiegelt werden, damit das Unternehmen im Katastrophenfall den Betrieb fortsetzen kann. Im Rahmen des Stresstests prüfen die Experten die tatsächliche Erreich- und Nutzbarkeit der Applikationen der Co-Location. Daneben spielen auch Fragen des Personalmanagements eine Rolle, darunter die Anzahl der Administratoren sowie die laufenden Vertretungsregelungen.

Fazit
Im Anschluss an den Stresstest leitet das "Data Center Services"-Team aus den umfangreichen Ergebnissen Empfehlungen ab, mit denen sich die Betriebssicherheit und Hochverfügbarkeit des Rechenzentrums steigern lässt. Auf Wunsch begleiten die Spezialisten den Auftraggeber auch darin, konkrete Schwächen im Data Center zu beheben wie etwa die Aus- und Weiterbildung des Personals im Bereich Notfallmanagement. Das gemeinsame Ziel dabei lautet stets: minimale Störanfälligkeit des Rechenzentrums und maximale Verfügbarkeit.
25.11.2015/ln/Juliane Rawinski, Manager Marketing / Communication bei TÜV Rheinland Consulting GmbH

Nachrichten

Erst virtuell testen, dann ausrollen [12.02.2020]

Zyxel bietet Administratoren ab sofort die Möglichkeit, Produkte selbstständig virtuell zu konfigurieren. Innerhalb des Support-Portals lassen sich im virtuellen Labor ZyLab diverse Technologien auswählen und extern auf die WebGUI des gewünschten Produkts zugreifen. Dies soll etwa ermöglichen, nach Erscheinen einer neuen Firmware diese zunächst einmal remote zu testen. [mehr]

IoT-Mobilfunkrouter für Industrieumgebungen [10.02.2020]

ICP Deutschland bietet die UR32-Mobilfunkrouter-Serie für IoT-Anwendungen an. Die Geräte unterstützen 2G, 3G und 4G und ermöglichen den Dual-SIM-Betrieb für Ausfallsicherheit. Schutz vor äußeren Einflüssen auf die Router sollen stabile Metallgehäusen bieten, während sich die Funker auf Hutschienen montieren lassen. [mehr]

Unter Strom [7.01.2020]

Tipps & Tools

Vorschau Januar 2020: LAN, WAN & SDN [16.12.2019]

Die Netzwerkinfrastruktur gehört wahrscheinlich nicht zu den heißesten Themen im IT-Bereich, nimmt jedoch einen enormen Stellenwert für Administratoren ein. Denn ohne stabile Grundlage kommt es schnell zu Engpässen im Datendurchsatz und Ausfällen von Applikationen. IT-Administrator startet das neue Jahr deshalb mit dem Schwerpunkt "LAN, WAN & SDN". Darin zeigen wir unter anderem, wie Sie Netzwerkgeräte mit rConfig, Jinja2 und Netdisco verwalten. Außerdem lesen Sie, wie Sie Anmeldungen mit dem Microsoft Network Policy Server unter Kontrolle behalten. In den Tests werfen wir einen Blick auf die NetBrain Integrated Edition 8.0. [mehr]

Vorschau Dezember 2019: Rechenzentrum & Infrastruktur [25.11.2019]

Das Rechenzentrum und die IT-Infrastruktur im Unternehmen bilden die Grundlage für einen erfolgreichen IT-Betrieb. In der Dezember-Ausgabe beleuchtet IT-Administrator das Management und die Automatisierung im Rechenzentrum. So zeigen wir, wie die Netzwerkverwaltung mit Netbox funktioniert und was das neue Wi-Fi 6 für Firmen zu bieten hat. Außerdem lesen Sie im Dezember-Heft, wie die Netzwerkinventarisierung mit der PowerShell funktioniert und was es bei der Verwaltung einer Hyper-V-Umgebung mit dem SCVMM 2019 zu beachten gilt. In den Produkttests beweist unter anderem AnyDesk Enterprise sein Können. [mehr]

Buchbesprechung

Handbuch Online-Shop

von Alexander Steireif, Rouven Rieker, Markus Bückle

Anzeigen