Fachartikel

Betriebssicherheit im Rechenzentrum prüfen und bewerten

Performanz und Zuverlässigkeit der IT-Infrastruktur wird für Unternehmen im Rahmen der digitalen Transformation zu Herausforderung und Erfolgsfaktor zugleich. Doch wie lässt sich die physische Ausfallsicherheit eines Rechenzentrums ermitteln und bewerten? Im Fachartikel erläutern wir, wie Unternehmen den Reifegrad ihrer digitalen Schaltzentrale ermitteln und welche Maßstäbe etwa TÜV Rheinland bei der Zertifizierung "Betriebssicheres Rechenzentrum" anlegt.
Mit dem Elchtest für Rechenzentren will der TÜV Rheinland für mehr Betriebssicherheit sorgen.
Keine Konnektivität, kein Business, keine Verwaltung – und mindestens unzufriedene Kunden. Der Ausfall der IT ist der Albtraum jedes Administrators, der Institutionen, Unternehmen und Produktion operativ ins Schwitzen bringt. Wer nicht definitiv weiß, dass sein Rechenzentrum betriebs- und ausfallsicher ist, sollte sich den Empfehlungen des TÜV Rheinland widmen. Sie zeigen, warum die Durchführung des "Elchtests" für Data Center so erfolgskritisch ist für den Bestand des Unternehmens.

Weitgefächerter Anforderungsstandard
Im Internet der Dinge und in Zeiten fortschreitender Digitalisierung ist die Verfügbarkeit von Servern und Rechenzentren einer der zentralen Erfolgsfaktoren für Unternehmen und kommunale Körperschaften. Um die Betriebssicherheit und Ausfallsicherheit von Rechenzentren objektiv zu bewerten, haben die Experten von TÜV Rheinland [1] einen eigenen Anforderungsstandard entwickelt. Der Kriterienkatalog, der insbesondere auf der "Rechenzentrums-Norm" DIN EN 50600 sowie auf eigenen Best-Practice-Erfahrungen und wichtigsten internationalen Richtlinien und Standards basiert, umfasst eine Betrachtung zur physikalischen Infrastruktur, mit der sich die Sicherheit und Verfügbarkeit in fünf verschiedenen Kategorien analysieren lassen.

Zu den allgemeinen Grundlagen, die TÜV Rheinland näher analysiert, zählen Kundendaten, Verfügbarkeitsanforderungen, Gefährdungsanalyse (Risk Management) und das Sicherheitskonzept. Im Bereich Baukonstruktion sind unter anderem Umfeld und Standort, Gebäudekonstruktion sowie Ausbau und Layout und das IT-Flächendesign relevant. In der Kategorie Technik spielen Aspekte wie die Brandmelde- und Löschanlage sowie Zutrittssicherheit eine Rolle, außerdem die Gebäudeleittechnik, eine unterbrechungsfreie Stromversorgung, die Klimaversorgung sowie IT- und Netzverkabelung und Doppelboden.

Schritte zum betriebssicheren Rechenzentrum
  • Definition der Betriebsanforderungen
  • Erfassung des Ist-Zustands (GAP-Analyse)
  • Erarbeitung eines Maßnahmenplans
  • Begleitung bis zur Inbetriebnahme
  • Ausbildungs- und Qualifizierungsmaßnahmen
  • Nachhaltige Qualitätssicherung
  • Übergabe an die zertifizierende Stelle

Individueller Audit-Prozess
Ebenfalls von Bedeutung sind Faktoren der allgemeinen Organisation. Gibt es ein Betriebshandbuch, wie gestalten sich die Organisationsabläufe, wie sind Logistik und Transport geregelt, gibt es regelmäßige Abnahmen und Funktionstests? Wie werden Mitarbeiter eingewiesen? In puncto Betrieb spielen unter anderem Fragen in Bezug auf Wartung und Service sowie Ausbildung, Schulung, Qualifikation und Notfallübungen eine wichtige Rolle.

Der Audit-Prozess ist auf den individuellen Schutzbedarf der Organisation abgestimmt. Das Team Data Center Services von TÜV Rheinland hat bereits zahlreiche Unternehmen unterschiedlichster Branchen und Betreiber von Rechenzentren auditiert. Daneben haben die Experten auch bestehende Rechenzentren und Serverräumen bereits auf Herz und Nieren geprüft.
Simulation von Störungen und Umschaltszenarien
Die spannendsten Anforderungen stellen in der Regel Integrationstests der Energie- Kälte- und Sicherheitstechnik dar. Mit diesen auch als "Elchtests für Rechenzentren" bezeichneten Testabläufen wird die Technik von Rechenzentren auf Herz und Nieren geprüft. Ohne diese Tests kann der Betreiber eines Rechenzentrums nicht sicher sein, dass das Rechenzentrum an sich bei Störumschaltungen sicher funktioniert. Das aber fordern zahlreiche Normen. In vielen Projekten, die TÜV Rheinland als Data Center Service qualitätssichernd begleitet, sind Integrationstests eine Voraussetzung für eine finale Abnahme durch den Bauherrn.

Die Integrationstests legen nach der Inbetriebnahme offen, ob die hochkomplexe technische Gebäudeausrüstung zuverlässig funktioniert – eine zentrale Voraussetzung für die Abnahme von neu errichteten Rechenzentren. Der Elchtest von TÜV Rheinland simuliert verschiedene Störungen und Umschaltszenarien und nimmt währenddessen die betroffenen Komponenten aus Elektrotechnik, Kälteversorgung und Sicherheitstechnik ins Visier. Zum Beispiel mit dem "Black Building"- Test, bei der die Hauptstromzufuhr unterbrochen wird. Läuft der Notstrom automatisch an? Werden die Schaltvorgänge fehlerfrei übernommen? Und wechselt das System zurück in den Normalbetrieb, sobald der Hauptstrom wieder verfügbar ist? Lautet die Antwort auf eine dieser Fragen "nein", besteht Handlungsbedarf. Ein weiterer Test: Fällt eine von zwei redundanten Klimaanlagen aus, muss die andere die vorgegebene Temperatur allein halten können. Schafft sie das nicht, gilt es dringend nachzubessern.

Mit dem Elchtest kann das Unternehmen frühzeitig Fehler im Rechenzentrum aufdecken, die bei einer herkömmlichen Inbetriebnahme unter Umständen verborgen bleiben und die sich später massiv auf den regulären Betrieb auswirken könnten. Willkommener Nebeneffekt: Das Personal des Rechenzentrumbetreibers erhält ein effektives Training on the Job und kann seine Anlagenkenntnisse enorm erweitern. Letztlich tragen die Tests also entscheidend dazu bei, mögliche Ausfallzeiten zu reduzieren und die Verfügbarkeit zu verbessern.

So erkennen Sie Handlungsbedarf in puncto Betriebssicherheit
Es gibt einige Indikatoren, die Handlungsbedarf im Bereich Betriebssicherheit von Rechenzentren aufzeigen können. Anbei ein kleiner Fragenkatalog für den Quick-Check:

  • Sind eventuelle Risiken in Rechenzentrum klar definiert (Testen Sie etwa regelmäßig eine Lastübernahme durch den Generator?)
  • Gab es in der Vergangenheit eventuelle Störfälle, deren Hergang und Ursache sich nicht eindeutig klären ließen?
  • Existieren Verfahrensanweisungen für Störfälle und werden diese regelmäßig geübt?
  • Sind den Verantwortlichen die Inhalte von Wartungsverträgen rund um das Rechenzentrum klar?
  • Gibt es ein Monitoring darüber, welche Geräte wann den End-of-Life-Status erreicht haben?
  • Ist dem RZ-Verantwortlichen bewusst, durch welche Maßnahmen sich Energie einsparen lässt?
  • Ist das Personal in der Bedienung der Klimageräte ausreichend geschult (etwa neuer Controller des Klimagerätes)?
  • Gibt es Gewissheit darüber, dass die Betriebsparameter optimal aufeinander abgestimmt sind?
Fazit
Wer die eine oder andere Frage negativ beantworten muss, der hat Handlungsbedarf und sollte sich im Zweifelsfall Rat bei Experten holen. Wenn Bauherrn planen, externes Know-how hinzuziehen, sollte das in einer frühen Phase des Rechenzentrumneubaus erfolgen. Denn zu diesem Zeitpunkt lassen sich typische Fehlerquellen mit dem entsprechenden Know-how leicht identifizieren und ausschalten. Nachträgliche bauliche Änderungen hingegen sind oftmals aufwändig. Übrigens: Wer einen externen Dienstleister einschaltet, sollte darauf achten, dass dieser über alle Phasen hinweg als zentraler Ansprechpartner zur Verfügung steht.
18.04.2018/ln/Rolf Walter, Leiter des Teams Data Center Services bei TÜV Rheinland

Nachrichten

Druckertinte für Zuhause [3.04.2020]

Kurzfristig ins Home Office – mit dieser Anforderung sahen sich viele Unternehmen in den vergangenen Wochen konfrontiert. Um die Arbeitsabläufe auch im Home Office effizient zu gestalten, gilt es nun, die technische Infrastruktur zu optimieren. Ein Gerät, das im Büroalltag eine wesentliche Rolle spielt, in vielen Heimarbeitsplätzen aber oft vernachlässigt wird, ist der Drucker. HP bietet nun einen Lieferservice für Tinte an. [mehr]

WiFi aus der Handtasche [31.03.2020]

Der neue 4G-Router "LTE2566-M634" von Zyxel will mobilen Mitarbeitern zu einem geringen Preis kabellos Netzwerkgeschwindigkeiten von bis zu 300 MBit/s liefern. So soll mobilen Nutzern jederzeit eine stabile, gesicherte Internetverbindung zur Verfügung stehen und somit die Notwendigkeit entfallen, sich in externe drahtlose Netzwerke einzuloggen. [mehr]

Tipps & Tools

5G und Wi-Fi 6 auf dem Vormarsch [25.02.2020]

Im Jahr 2023 werden in Deutschland bereits 18,4 Prozent aller mobilen Verbindungen auf 5G basieren. Der Großteil der Verbindungen, 69 Prozent, wird aber weiterhin über WLAN und stationäres Breitband abgedeckt. Insgesamt wird es 2023 über 823 Millionen vernetzte Geräte geben, fast eine Verdopplung der 478 Millionen Geräte aus dem Jahr 2018. Das sind Zahlen des aktuellen Cisco Annual Internet Report. [mehr]

Vorschau Januar 2020: LAN, WAN & SDN [16.12.2019]

Die Netzwerkinfrastruktur gehört wahrscheinlich nicht zu den heißesten Themen im IT-Bereich, nimmt jedoch einen enormen Stellenwert für Administratoren ein. Denn ohne stabile Grundlage kommt es schnell zu Engpässen im Datendurchsatz und Ausfällen von Applikationen. IT-Administrator startet das neue Jahr deshalb mit dem Schwerpunkt "LAN, WAN & SDN". Darin zeigen wir unter anderem, wie Sie Netzwerkgeräte mit rConfig, Jinja2 und Netdisco verwalten. Außerdem lesen Sie, wie Sie Anmeldungen mit dem Microsoft Network Policy Server unter Kontrolle behalten. In den Tests werfen wir einen Blick auf die NetBrain Integrated Edition 8.0. [mehr]

Buchbesprechung

Technik der IP-Netze

von Anatol Badach und Erwin Hoffmann

Anzeigen