Grundlagen

Hochverfügbarkeit

In unserer Grundlagen-Rubrik erklären wir wichtige Aufgaben und Technologien aus dem Arbeitsalltag eines Netzwerk- und Systemadministrators. Hier erfahren Sie anhand prägnanter Erklärungen zu den wichtigsten Begriffen des jeweiligen Themenfeldes Hintergründe und Zusammenhänge in kompakter, praxisnaher Form.

In der heutigen Arbeitswelt ist die Verfügbarkeit der IT-Systeme und -Komponenten die Grundlage für den reibungslosen Ablauf der unternehmensinternen Geschäftsprozesse. Ist beispielsweise der E-Mailserver nicht verfügbar, können die Anwender keine E-Mails verschicken, steht das Warenwirtschaftssystem still, stockt die Produktion und so weiter. Die Verfügbarkeit wird als Verhältnis aus fehlerbedingter Ausfallzeit und Gesamtzeit eines Systems gemessen. Das Ziel der Hochverfügbarkeit (High Availability, HA) in der IT ist es, die Systeme auch dann verfügbar zu halten, wenn eine oder mehrere für das Funktionieren notwendigen Komponenten ausfallen.

Definition von Hochverfügbarkeit


Das Institute of Electrical and Electronics Engineers (IEEE) definiert Hochverfügbarkeit als Verfügbarkeit der IT-Ressourcen im Falle eines Ausfalls von Systemkomponenten. Ein System gilt also dann als hochverfügbar, wenn eine Anwendung auch im Fehlerfall weiterhin verfügbar ist und ohne unmittelbaren menschlichen Eingriff weiter genutzt werden kann. In der Konsequenz heißt dies, dass der Anwender keine oder nur eine kurze Unterbrechung wahrnimmt. Hochverfügbarkeit bezeichnet die Fähigkeit eines Systems, bei Ausfall einer seiner Komponenten einen uneingeschränkten Betrieb zu gewährleisten.

Verfügbarkeitsklassen

Die letzte Definition beschreibt ein System auch bei einer kurzen Unterbrechung als hochverfügbar, was uns direkt zu der Einteilung in Verfügbarkeitsklassen führt. Allerdings wird die Frage, ab welcher Verfügbarkeitsklasse ein System als hochverfügbar einzustufen ist, wird je nach Definition der Verfügbarkeit unterschiedlich beantwortet.

Bei einer Verfügbarkeit von 99 Prozent (Ausfall von etwa vier Tagen pro Jahr) ist in der Regel noch keine Hochverfügbarkeit erreicht, diese prozentuale Verfügbarkeit wird heutzutage bei qualitativ hochwertigen EDV-Komponenten als normal betrachtet. Hochverfügbarkeit wird erst ab einem Wert von 99,9 Prozent oder höher erreicht. Die weitere Steigerung der Verfügbarkeit wird durch das "Anhängen" weiterer 9en erreicht:
- Verfügbarkeit 99 Prozent entspricht einer Ausfallzeit von etwa 87 Stunden/Jahr
- Verfügbarkeit 99,9 Prozent entspricht einer Ausfallzeit von etwa 8:46 Stunden/Jahr.
- Verfügbarkeit 99,99 Prozent entspricht einer Ausfallzeit von etwa 53 Minuten/Jahr
- Verfügbarkeit 99,999 Prozent entspricht einer Ausfallzeit von etwa 5 Minuten/Jahr
- Verfügbarkeit 99,9999 Prozent entspricht einer Ausfallzeit von etwa 32 Sekunden/Jahr

In dieser Form wird die Hochverfügbarkeit von IT-Komponenten heute am Markt angeboten, beziehungsweise klassifizieren sich Produkte, die Hochverfügbarkeit sicherstellen sollen an Hand dieser Werte.

Availability Environment Classification

Dabei ist es naheliegend, das letztgenannte Produkte um teurer werden, je mehr 9en sie aufweisen. Daher ist es vor einer – teilweise nicht unerheblichen – Investition in einer derartige Technologie wichtig, sich zu fragen, wie verfügbar die im Unternehmen eingesetzten IT-Systeme eigentlich sein sollen. Dafür gibt die Harvard Research Group (HRG) in ihrer Einteilung der Hochverfügbarkeit in "Availability Environment Classification (AEC)" in sechs Klassen einen guten Hinweis:
- AEC-0 (Conventional): Funktion kann unterbrochen werden, Datenintegrität ist nicht essentiell.
- AEC-1 (Highly Reliable): Funktion kann unterbrochen werden, Datenintegrität muss jedoch gewährleistet sein.
- AEC-2 (High Availability) Funktion darf nur innerhalb festgelegter Zeiten oder zur Hauptbetriebszeit minimal unterbrochen werden.
- AEC-3 (Fault Resilient); Funktion muss innerhalb festgelegter Zeiten oder während der Hauptbetriebszeit ununterbrochen aufrechterhalten werden.
- AEC-4 (Fault Tolerant): Funktion muss ununterbrochen aufrechterhalten werden, 24/7-Betrieb muss gewährleistet sein.
- AEC-5 (Disaster Tolerant): Funktion muss unter allen Umständen verfügbar sein.

Weitere Kenngrößen

Im Umfeld der Hochverfügbarkeit gibt einige weitere wichtige Kenngrößen, die über die reine Messung der Ausfallzeit hinausgehen. Diese beschreiben zum einen das Verhalten des hochverfügbaren Systems und erlauben zum anderen den Vergleich unterschiedlicher HA-Produkte beziehungsweise Anbietern:
- Mean Time Between Failure (MTBF): mittlere ausfallfreie Zeit eines Systems
- Mean Time To Repair (MTTR): mittlere Dauer für die Wiederherstellung nach einem Ausfall
- Mean Time Between Crash (MTBC): mittlere ausfallfreie Zeit eines Betriebssystems

Technische Umsetzung von Hochverfügbarkeit

Generell streben HA-Systeme danach, sogenannte Single-Point-of-Failure-Risiken (SPOF) zu eliminieren (ein SPOF ist eine einzelne Komponente, deren Versagen zum Ausfall des gesamten Systems führt). Ein Hersteller eines hochverfügbaren Systems muss dieses mit folgenden Merkmalen ausstatten: Redundanz kritischer Systemkomponenten sowie fehlertolerantes und robustes Verhalten des Gesamtsystems. Typische Beispiele für solche Komponenten sind unterbrechungsfreie Stromversorgungen, doppelte Netzteile oder der Einsatz von RAID-Systemen. Weiter kommen Techniken zur Serverspiegelung oder auch redundante Cluster zum Einsatz.

In der IT-Infrastruktur hat die Hochverfügbarkeit folgende Ausprägungen: Als Cold-Standby werden HA-Lösungen bezeichnet, bei denen die Anwendungen des Rechners im Fehlerfalle auf einem Ersatzrechner zur Verfügung stehen. Hot-Standby bezeichnet Systeme, bei denen die Anwendungen des Rechners im Fehlerfalle auf einem Ersatzrechner zur Verfügung stehen, dieser jedoch die Arbeit sofort nach Ausfall des primären Rechners aufnimmt. In Cluster-Systemen sind mehrere Rechner sind miteinander gekoppelt, sie erscheinen nach außen als ein einziger Rechner. Cluster können sich im Fehlerfall unterschiedlich verhalten, es wird zwischen Failover und Takeover unterschieden. Failover heißt, dass im Fehlerfall die Anwendung auf einem anderen Rechner im Cluster neu gestartet wird. Takeover bedeutet, dass die Dienste auf zwei oder mehreren Servern gleichzeitig aktiv sind. Fällt ein Server aus, so schaltet der Cluster auf einen anderen Server um.
29.06.2011/jp

Nachrichten

Arbeitstiere für KI- und HPC-Umgebungen [16.07.2018]

Quanta Cloud Technology stellt mit dem QuantaGrid D52G-4U einen neuen Dual-Socket-Server vor, der speziell für den Einsatz in Bereichen wie künstliche Intelligenz und High-Performance-Computing entwickelt wurde. Die auf dem skalierbaren Intel-Xeon-Accelerator-Server basierende Rechner bietet derzeit drei verschiedene Baseboards, die für unterschiedliche Anwendungen optimiert wurden. [mehr]

Kleinere Workstations mit schnellerer CPU [13.07.2018]

Lenovo lüftet den Vorhang für seine neue ThinkStation-Familie 'P330'. Die Workstations umfassen die Formfaktoren Tower, Small Form Factor (SFF) und Tiny. Aufgrund eines Redesigns des Chassis sind die Tower- und SFF-Varianten im Vergleich zu ihren Vorgängern um bis zu 30 Prozent kleiner. [mehr]

Tipps & Tools

Putzmann für mobile Geräte [14.07.2018]

Im modernen Touchscreen-Zeitalter ist die Reinigung von Smartphone, Tablet oder Monitor eine ständig wiederkehrende Fleißarbeit. In der Regel kommen dabei Mikrofaser-Tücher zum Einsatz. Diese sind aber gerade denn wenn dringend gebraucht oft nicht zur Hand oder nach einer bestimmten Zeit nicht mehr effizient. Mit dem putzigen Reinigungs-Gadget 'Henry' können Sie eine interessante Alternative für das Säubern Ihrer mobilen Geräte ausprobieren. [mehr]

Fehlermeldungen besser interpretieren [13.07.2018]

Bei Problemen mit dem Betriebssystem sind unter Windows 10 viele Fehlermeldungen nicht gerade verständlich und tragen selten zu einer schnellen Lösung bei. Mit dem kostenfreien 'FileAccessErrorView' steht Ihnen jetzt ein einfaches und portables Diagnoseprogramm zur Verfügung, das genaue Detailinformationen zu Fehlern anzeigt, die während dem Öffnen, Lesen, Schreiben oder Löschen einer Datei auftreten können. [mehr]

Buchbesprechung

VoIP Praxisleitfaden

von Jörg Fischer und Christian Sailer

Anzeigen