Grundlagen

Hochverfügbarkeit

In unserer Grundlagen-Rubrik erklären wir wichtige Aufgaben und Technologien aus dem Arbeitsalltag eines Netzwerk- und Systemadministrators. Hier erfahren Sie anhand prägnanter Erklärungen zu den wichtigsten Begriffen des jeweiligen Themenfeldes Hintergründe und Zusammenhänge in kompakter, praxisnaher Form.

In der heutigen Arbeitswelt ist die Verfügbarkeit der IT-Systeme und -Komponenten die Grundlage für den reibungslosen Ablauf der unternehmensinternen Geschäftsprozesse. Ist beispielsweise der E-Mailserver nicht verfügbar, können die Anwender keine E-Mails verschicken, steht das Warenwirtschaftssystem still, stockt die Produktion und so weiter. Die Verfügbarkeit wird als Verhältnis aus fehlerbedingter Ausfallzeit und Gesamtzeit eines Systems gemessen. Das Ziel der Hochverfügbarkeit (High Availability, HA) in der IT ist es, die Systeme auch dann verfügbar zu halten, wenn eine oder mehrere für das Funktionieren notwendigen Komponenten ausfallen.

Definition von Hochverfügbarkeit


Das Institute of Electrical and Electronics Engineers (IEEE) definiert Hochverfügbarkeit als Verfügbarkeit der IT-Ressourcen im Falle eines Ausfalls von Systemkomponenten. Ein System gilt also dann als hochverfügbar, wenn eine Anwendung auch im Fehlerfall weiterhin verfügbar ist und ohne unmittelbaren menschlichen Eingriff weiter genutzt werden kann. In der Konsequenz heißt dies, dass der Anwender keine oder nur eine kurze Unterbrechung wahrnimmt. Hochverfügbarkeit bezeichnet die Fähigkeit eines Systems, bei Ausfall einer seiner Komponenten einen uneingeschränkten Betrieb zu gewährleisten.

Verfügbarkeitsklassen

Die letzte Definition beschreibt ein System auch bei einer kurzen Unterbrechung als hochverfügbar, was uns direkt zu der Einteilung in Verfügbarkeitsklassen führt. Allerdings wird die Frage, ab welcher Verfügbarkeitsklasse ein System als hochverfügbar einzustufen ist, wird je nach Definition der Verfügbarkeit unterschiedlich beantwortet.

Bei einer Verfügbarkeit von 99 Prozent (Ausfall von etwa vier Tagen pro Jahr) ist in der Regel noch keine Hochverfügbarkeit erreicht, diese prozentuale Verfügbarkeit wird heutzutage bei qualitativ hochwertigen EDV-Komponenten als normal betrachtet. Hochverfügbarkeit wird erst ab einem Wert von 99,9 Prozent oder höher erreicht. Die weitere Steigerung der Verfügbarkeit wird durch das "Anhängen" weiterer 9en erreicht:
- Verfügbarkeit 99 Prozent entspricht einer Ausfallzeit von etwa 87 Stunden/Jahr
- Verfügbarkeit 99,9 Prozent entspricht einer Ausfallzeit von etwa 8:46 Stunden/Jahr.
- Verfügbarkeit 99,99 Prozent entspricht einer Ausfallzeit von etwa 53 Minuten/Jahr
- Verfügbarkeit 99,999 Prozent entspricht einer Ausfallzeit von etwa 5 Minuten/Jahr
- Verfügbarkeit 99,9999 Prozent entspricht einer Ausfallzeit von etwa 32 Sekunden/Jahr

In dieser Form wird die Hochverfügbarkeit von IT-Komponenten heute am Markt angeboten, beziehungsweise klassifizieren sich Produkte, die Hochverfügbarkeit sicherstellen sollen an Hand dieser Werte.

Availability Environment Classification

Dabei ist es naheliegend, das letztgenannte Produkte um teurer werden, je mehr 9en sie aufweisen. Daher ist es vor einer – teilweise nicht unerheblichen – Investition in einer derartige Technologie wichtig, sich zu fragen, wie verfügbar die im Unternehmen eingesetzten IT-Systeme eigentlich sein sollen. Dafür gibt die Harvard Research Group (HRG) in ihrer Einteilung der Hochverfügbarkeit in "Availability Environment Classification (AEC)" in sechs Klassen einen guten Hinweis:
- AEC-0 (Conventional): Funktion kann unterbrochen werden, Datenintegrität ist nicht essentiell.
- AEC-1 (Highly Reliable): Funktion kann unterbrochen werden, Datenintegrität muss jedoch gewährleistet sein.
- AEC-2 (High Availability) Funktion darf nur innerhalb festgelegter Zeiten oder zur Hauptbetriebszeit minimal unterbrochen werden.
- AEC-3 (Fault Resilient); Funktion muss innerhalb festgelegter Zeiten oder während der Hauptbetriebszeit ununterbrochen aufrechterhalten werden.
- AEC-4 (Fault Tolerant): Funktion muss ununterbrochen aufrechterhalten werden, 24/7-Betrieb muss gewährleistet sein.
- AEC-5 (Disaster Tolerant): Funktion muss unter allen Umständen verfügbar sein.

Weitere Kenngrößen

Im Umfeld der Hochverfügbarkeit gibt einige weitere wichtige Kenngrößen, die über die reine Messung der Ausfallzeit hinausgehen. Diese beschreiben zum einen das Verhalten des hochverfügbaren Systems und erlauben zum anderen den Vergleich unterschiedlicher HA-Produkte beziehungsweise Anbietern:
- Mean Time Between Failure (MTBF): mittlere ausfallfreie Zeit eines Systems
- Mean Time To Repair (MTTR): mittlere Dauer für die Wiederherstellung nach einem Ausfall
- Mean Time Between Crash (MTBC): mittlere ausfallfreie Zeit eines Betriebssystems

Technische Umsetzung von Hochverfügbarkeit

Generell streben HA-Systeme danach, sogenannte Single-Point-of-Failure-Risiken (SPOF) zu eliminieren (ein SPOF ist eine einzelne Komponente, deren Versagen zum Ausfall des gesamten Systems führt). Ein Hersteller eines hochverfügbaren Systems muss dieses mit folgenden Merkmalen ausstatten: Redundanz kritischer Systemkomponenten sowie fehlertolerantes und robustes Verhalten des Gesamtsystems. Typische Beispiele für solche Komponenten sind unterbrechungsfreie Stromversorgungen, doppelte Netzteile oder der Einsatz von RAID-Systemen. Weiter kommen Techniken zur Serverspiegelung oder auch redundante Cluster zum Einsatz.

In der IT-Infrastruktur hat die Hochverfügbarkeit folgende Ausprägungen: Als Cold-Standby werden HA-Lösungen bezeichnet, bei denen die Anwendungen des Rechners im Fehlerfalle auf einem Ersatzrechner zur Verfügung stehen. Hot-Standby bezeichnet Systeme, bei denen die Anwendungen des Rechners im Fehlerfalle auf einem Ersatzrechner zur Verfügung stehen, dieser jedoch die Arbeit sofort nach Ausfall des primären Rechners aufnimmt. In Cluster-Systemen sind mehrere Rechner sind miteinander gekoppelt, sie erscheinen nach außen als ein einziger Rechner. Cluster können sich im Fehlerfall unterschiedlich verhalten, es wird zwischen Failover und Takeover unterschieden. Failover heißt, dass im Fehlerfall die Anwendung auf einem anderen Rechner im Cluster neu gestartet wird. Takeover bedeutet, dass die Dienste auf zwei oder mehreren Servern gleichzeitig aktiv sind. Fällt ein Server aus, so schaltet der Cluster auf einen anderen Server um.
29.06.2011/jp

Nachrichten

Quantenforschung in Bayern [30.04.2021]

Um die Potenziale von Quantencomputing auch für die Industrie nutzbar zu machen, erforscht das "Bayerische Kompetenzzentrum Quanten Security and Data Science", kurz BayQS, künftig relevante Fragestellungen in diesem Umfeld. Dadurch soll das BayQS Grundlagen für eine praxisnahe, vertrauenswürdige Nutzung von Quantencomputing schaffen. [mehr]

Daten richtig nutzen [27.04.2021]

Daten sind der Treibstoff für jedes Unternehmen – unabhängig von Größe und Branche. Ob es ein Formel-1-Rennteam ist, das dank sofortiger Datenanalyse an der Rennstrecke den ersten Platz belegt, oder ein klinisches Team, das den Prozess der Entwicklung neuer lebensrettender Medikamente beschleunigen kann: Jede Branche kann von der Macht der Daten profitieren. Pure Storage erläutert, welche Nutzungsmodelle sich hierfür anbieten. [mehr]

Backup in der Cloud [23.04.2021]

Tipps & Tools

PowerShell für Admins: Online-Intensiv-Seminar [3.05.2021]

Die PowerShell ist seit 2007 das zentrale Verwaltungswerkzeug für Administratoren von Windows-Servern und -Clients. Eine flexible und effektive Verwaltung vieler Serverdienste wie Exchange, SharePoint oder Hyper-V ist ohne die WPS nicht möglich. Zudem gelang mit der PowerShell Core auch der Brückenschlag in die Linux/Unix-Welt. Unser dreitägiges Intensiv-Seminar im Juli und September 2021 vermittelt die Kernkonzepte, Struktur und Einsatzbeispiele der PowerShell. Bedingt durch die aktuellen Umstände finden beide Veranstaltungen online statt. [mehr]

Neue PRTG-Features frühzeitig testen [2.05.2021]

Manche Unternehmen überwachen ihre komplette IT-Umgebung mit PRTG Network Monitor. Neben einem Produktivsystem, in dem sie nur sorgfältig geprüfte Sensoren und Skripte einsetzen, betreiben sie eine weitere Installation in einer Testumgebung. Unser Tipp zeigt, wie Sie ganz neue Features von PRTG zu einem möglichst frühen Zeitpunkt testen können. Somit verkürzen Sie Implementierungszyklen und stellen trotzdem sicher, dass Sie in Ihrem Produktivsystem ausschließlich mit Konfigurationen arbeiten, die ausführlich getestet sind. [mehr]

Buchbesprechung

Computernetze und Internet of Things

von Patrick-Benjamin Bök, Andreas Noack, Marcel Müller

Anzeigen