Hochverfügbarkeit

29.06.2011 - 16:20

Veröffentlicht in:

Grundlagen

In unserer Grundlagen-Rubrik erklären wir wichtige Aufgaben und Technologien aus dem Arbeitsalltag eines Netzwerk- und Systemadministrators. Hier erfahren Sie anhand prägnanter Erklärungen zu den wichtigsten Begriffen des jeweiligen Themenfeldes Hintergründe und Zusammenhänge in kompakter, praxisnaher Form.

In der heutigen Arbeitswelt ist die Verfügbarkeit der IT-Systeme und -Komponenten die Grundlage für den reibungslosen Ablauf der unternehmensinternen Geschäftsprozesse. Ist beispielsweise der E-Mailserver nicht verfügbar, können die Anwender keine E-Mails verschicken, steht das Warenwirtschaftssystem still, stockt die Produktion und so weiter. Die Verfügbarkeit wird als Verhältnis aus fehlerbedingter Ausfallzeit und Gesamtzeit eines Systems gemessen. Das Ziel der Hochverfügbarkeit (High Availability, HA) in der IT ist es, die Systeme auch dann verfügbar zu halten, wenn eine oder mehrere für das Funktionieren notwendigen Komponenten ausfallen.

Definition von Hochverfügbarkeit

Das Institute of Electrical and Electronics Engineers (IEEE) definiert Hochverfügbarkeit als Verfügbarkeit der IT-Ressourcen im Falle eines Ausfalls von Systemkomponenten. Ein System gilt also dann als hochverfügbar, wenn eine Anwendung auch im Fehlerfall weiterhin verfügbar ist und ohne unmittelbaren menschlichen Eingriff weiter genutzt werden kann. In der Konsequenz heißt dies, dass der Anwender keine oder nur eine kurze Unterbrechung wahrnimmt. Hochverfügbarkeit bezeichnet die Fähigkeit eines Systems, bei Ausfall einer seiner Komponenten einen uneingeschränkten Betrieb zu gewährleisten.

Verfügbarkeitsklassen

Die letzte Definition beschreibt ein System auch bei einer kurzen Unterbrechung als hochverfügbar, was uns direkt zu der Einteilung in Verfügbarkeitsklassen führt. Allerdings wird die Frage, ab welcher Verfügbarkeitsklasse ein System als hochverfügbar einzustufen ist, wird je nach Definition der Verfügbarkeit unterschiedlich beantwortet.

Bei einer Verfügbarkeit von 99 Prozent (Ausfall von etwa vier Tagen pro Jahr) ist in der Regel noch keine Hochverfügbarkeit erreicht, diese prozentuale Verfügbarkeit wird heutzutage bei qualitativ hochwertigen EDV-Komponenten als normal betrachtet. Hochverfügbarkeit wird erst ab einem Wert von 99,9 Prozent oder höher erreicht. Die weitere Steigerung der Verfügbarkeit wird durch das "Anhängen" weiterer 9en erreicht:
- Verfügbarkeit 99 Prozent entspricht einer Ausfallzeit von etwa 87 Stunden/Jahr
- Verfügbarkeit 99,9 Prozent entspricht einer Ausfallzeit von etwa 8:46 Stunden/Jahr.
- Verfügbarkeit 99,99 Prozent entspricht einer Ausfallzeit von etwa 53 Minuten/Jahr
- Verfügbarkeit 99,999 Prozent entspricht einer Ausfallzeit von etwa 5 Minuten/Jahr
- Verfügbarkeit 99,9999 Prozent entspricht einer Ausfallzeit von etwa 32 Sekunden/Jahr

In dieser Form wird die Hochverfügbarkeit von IT-Komponenten heute am Markt angeboten, beziehungsweise klassifizieren sich Produkte, die Hochverfügbarkeit sicherstellen sollen an Hand dieser Werte.

Availability Environment Classification

Dabei ist es naheliegend, das letztgenannte Produkte um teurer werden, je mehr 9en sie aufweisen. Daher ist es vor einer – teilweise nicht unerheblichen – Investition in einer derartige Technologie wichtig, sich zu fragen, wie verfügbar die im Unternehmen eingesetzten IT-Systeme eigentlich sein sollen. Dafür gibt die Harvard Research Group (HRG) in ihrer Einteilung der Hochverfügbarkeit in "Availability Environment Classification (AEC)" in sechs Klassen einen guten Hinweis:
- AEC-0 (Conventional): Funktion kann unterbrochen werden, Datenintegrität ist nicht essentiell.
- AEC-1 (Highly Reliable): Funktion kann unterbrochen werden, Datenintegrität muss jedoch gewährleistet sein.
- AEC-2 (High Availability) Funktion darf nur innerhalb festgelegter Zeiten oder zur Hauptbetriebszeit minimal unterbrochen werden.
- AEC-3 (Fault Resilient); Funktion muss innerhalb festgelegter Zeiten oder während der Hauptbetriebszeit ununterbrochen aufrechterhalten werden.
- AEC-4 (Fault Tolerant): Funktion muss ununterbrochen aufrechterhalten werden, 24/7-Betrieb muss gewährleistet sein.
- AEC-5 (Disaster Tolerant): Funktion muss unter allen Umständen verfügbar sein.

Weitere Kenngrößen

Im Umfeld der Hochverfügbarkeit gibt einige weitere wichtige Kenngrößen, die über die reine Messung der Ausfallzeit hinausgehen. Diese beschreiben zum einen das Verhalten des hochverfügbaren Systems und erlauben zum anderen den Vergleich unterschiedlicher HA-Produkte beziehungsweise Anbietern:
- Mean Time Between Failure (MTBF): mittlere ausfallfreie Zeit eines Systems
- Mean Time To Repair (MTTR): mittlere Dauer für die Wiederherstellung nach einem Ausfall
- Mean Time Between Crash (MTBC): mittlere ausfallfreie Zeit eines Betriebssystems

Technische Umsetzung von Hochverfügbarkeit

Generell streben HA-Systeme danach, sogenannte Single-Point-of-Failure-Risiken (SPOF) zu eliminieren (ein SPOF ist eine einzelne Komponente, deren Versagen zum Ausfall des gesamten Systems führt). Ein Hersteller eines hochverfügbaren Systems muss dieses mit folgenden Merkmalen ausstatten: Redundanz kritischer Systemkomponenten sowie fehlertolerantes und robustes Verhalten des Gesamtsystems. Typische Beispiele für solche Komponenten sind unterbrechungsfreie Stromversorgungen, doppelte Netzteile oder der Einsatz von RAID-Systemen. Weiter kommen Techniken zur Serverspiegelung oder auch redundante Cluster zum Einsatz.

In der IT-Infrastruktur hat die Hochverfügbarkeit folgende Ausprägungen: Als Cold-Standby werden HA-Lösungen bezeichnet, bei denen die Anwendungen des Rechners im Fehlerfalle auf einem Ersatzrechner zur Verfügung stehen. Hot-Standby bezeichnet Systeme, bei denen die Anwendungen des Rechners im Fehlerfalle auf einem Ersatzrechner zur Verfügung stehen, dieser jedoch die Arbeit sofort nach Ausfall des primären Rechners aufnimmt. In Cluster-Systemen sind mehrere Rechner sind miteinander gekoppelt, sie erscheinen nach außen als ein einziger Rechner. Cluster können sich im Fehlerfall unterschiedlich verhalten, es wird zwischen Failover und Takeover unterschieden. Failover heißt, dass im Fehlerfall die Anwendung auf einem anderen Rechner im Cluster neu gestartet wird. Takeover bedeutet, dass die Dienste auf zwei oder mehreren Servern gleichzeitig aktiv sind. Fällt ein Server aus, so schaltet der Cluster auf einen anderen Server um.

jp

Mehr zu diesem Thema finden Sie im IT-Administrator Ausgabe Juli 2011.

Hochverfügbarkeit

Hochverfügbarkeit

Tags

Ähnliche Beiträge

Terminalserver

Service Level Agreements

Eckpfeiler einer Backup-Strategie

Partner Links

Kontakt