Site Reliability Engineering für KMU

11.10.2023 - 07:23

Veröffentlicht in:

Fachartikel

Ein Ansatz, mit dem IT-Teams sowohl die Softwareentwicklung als auch die Systemwartung vorantreiben, ist das Site Reliability Engineering. Die Methode wurde ursprünglich von Google geprägt und kommt nun in zahlreichen großen Tech-Unternehmen zum Einsatz. Unser Fachartikel erklärt die Kernpfeiler von SRE, wie es sich von DevOps unterscheidet, und welchen Nutzen auch kleine Unternehmen davon haben.

Unsere Welt wird immer schnelllebiger – und mit ihr die Entwicklungszyklen von Produkten und Dienstleistungen. Die IT stellt das vor immense Herausforderungen: ein stetiges Anpassen, Erneuern und Antworten auf Fragen finden, die es gestern noch gar nicht gab. Gleichzeitig rücken Verlässlichkeit und Stabilität vorhandener Systeme oder auch die IT-Sicherheit kontinuierlich in den Fokus. Kurz: Die Anforderungen an die IT gleichen einem Spagat zwischen der hippen, disruptiven, permanenten Erneuerung einerseits und der traditionellen Verlässlichkeit eines Schweizer Uhrwerks andererseits.

Große Tech-Unternehmen wie Google lösen den Spagat, indem sie einerseits bei der Entwicklung auf DevOps-Teams setzen und andererseits mit SRE-Teams für die Verlässlichkeit sorgen. SRE steht dabei für Site Reliability Engineering, wurde 2003 vom Google-Ingenieur Benjamin Reynor Sloss geprägt und ist laut des Karrierenetzwerks LinkedIn mittlerweile einer der 25 gefragtesten Jobs in den USA.

DevOps vs. SRE
Auf den ersten Blick ist nicht ganz klar, wo der Unterschied zwischen einem DevOps-Team und dem Site Reliability Engineering liegt. Schließlich setzt sich DevOps aus Development und Operations zusammen und vereint die vormals getrennten Rollen aus Entwicklung, IT-Betrieb, Qualitätssicherung und Sicherheit mit dem Ziel, bessere und verlässliche Produkte zu realisieren. DevOps-Teams haben die Aufgabe, das Vertrauen der Nutzer in die eigenen Anwendungen zu stärken und für Stabilität zu sorgen.

Wofür dann also zusätzlich das SRE? Und genau hier sind wir zurück bei der eingangs erwähnten Schnelllebigkeit, den damit verbundenen kurzen Entwicklungszyklen und der immer kürzeren Halbwertszeit von Lösungen. Denn DevOps sorgt zwar dafür – das ist der Dev-Part –, dass neue Anwendungen oder Funktionen schnell programmiert werden, während sich die Techniker – das Ops – darauf konzentrieren, dass Anwendungen funktionieren und stabil laufen. SRE bringt hingegen eine ganz neue Komponente in dieses Spiel: die Verlässlichkeit. Und genau die ist es, die viele der Google-Dienste wie die Suche, das E-Mail-Programm oder die Office-Suite bei den Nutzern so beliebt machen – weil sie einfach immer funktionieren.

Weg vom Höher, Schneller, Weiter?
Verlässlichkeit ist also keinesfalls als Hemmschuh in einer disruptiven Welt zu sehen – im Gegenteil. Systeme, die immer und jederzeit zu erreichen sind, sind ein echtes Asset. Und genau dafür sorgen SRE-Teams, in dem in erster Linie Aufgaben automatisiert werden, die zuvor manuell erledigt wurden. Zudem sorgt SRE dafür, dass aus eher schwammigen Zielen – beispielsweise die Erhöhung des Service-Level –, messbare Zielwerte werden, deren Benchmarks sich überwachen lassen. Kurz: SRE-Teams haben die Aufgaben zu überwachen, zu protokollieren und zu automatisieren.

Damit schafft SRE quasi eine Balance zwischen dem High Speed in der Produktentwicklung und der nötigen Zuverlässigkeit eines Systems, indem beispielsweise Error Budgets festgelegt werden. Das kann eine definierte Schwelle akzeptabler Ausfallzeiten sein. Wird sie erreicht, hat die Sicherung der Uptime höchste Priorität. Fehler schauen sich SRE-Teams dabei genau an, denn aus ihnen gilt es zu lernen und Verbesserungen für das System abzuleiten. Im Fokus steht ein konstruktiver Umgang mit dem Warum und dem Wie, damit ein solcher Vorfall idealerweise nicht noch einmal vorkommt.

Gebaut auf drei Säulen
Auch deshalb gehört die Überwachung von Systemen zu den drei Säulen des SRE. Wichtig ist dabei die Rundumsicht – von der Systemlast über die Netzwerkkapazität bis hin zur Speichernutzung. Transparenz hat dabei einen hohen Stellenwert, denn nur mit ihr können Abweichungen von vorher definierten Kennzahlen automatisierte Aktionen in Gang setzen, die Probleme bestenfalls schon abwenden, bevor sie sich verselbständigen oder gar zum Ausfall führen. Wenn man so will, steht die Prävention im Fokus, nicht das Beheben von Problemen.

Transparenz wird dabei nur erreicht, wenn alles umfassend protokolliert wird – die zweite wichtige Säule des SRE. Logfiles sind deshalb Bestandteil jeder SRE-Strategie. Fällt eine Systemkomponente aus, tritt ein Fehler auf oder passiert sonst etwas unerwartetes – die Ursachenforschung oder auch Root Cause Analysis (RCA) beginnt immer in den Logfiles. Denn nur, wenn der Ursprung eines Problems oder einer Störung bekannt ist, können sie langfristig verhindert werden.

Womit zwangsläufig die dritte Säule des SRE folgt: die Automatisierung. Einrichten, warten, Probleme behandeln – das alles werden Routineaufgaben, die im Idealfall nicht mehr manuell ausgeführt werden müssen, wenn eben die vorangegangene Analyse bis zur Wurzel zurückreicht. Ein Beispiel für eine solche gelungene Automatisierung ist etwa ein Skript, das eigenständig einen neuen Server einrichtet, die notwendige Software installiert und die Konfiguration anpasst, sobald der Bedarf einer zusätzlichen Kapazität festgestellt wird.

SRE – mehr als "nice to have"
Dieser immense Qualitätssprung, der sich mit SRE erreichen lässt, wirkt sich durch den hohen Grad der Automatisierung also auch positiv auf die Ressourcen aus, die im Unternehmen gebunden werden. Auch deshalb ist SRE für Tech-Riesen, große Konzerne und KMU gleichermaßen interessant. Aber natürlich haben letztere eine deutlich höhere Hürde zu nehmen, um SRE erfolgreich im eigenen Unternehmen zu etablieren. Oftmals ist es gerade im Mittelstand nicht zu rechtfertigen, eine DevOps-Abteilung und ein SRE-Team aufzubauen.

Die gute Nachricht ist: Diese Entweder-Oder-Entscheidung muss nicht zwangsläufig getroffen werden. Denn viele Funktionen zur Überwachung, Protokollierung und Automatisierung von IT-Systemen lassen sich auslagern – beispielsweise an eine IT-Management-Plattform. So haben Systemadministratoren und MSPs ihre Systeme im Blick, können Probleme frühzeitig diagnostizieren und Routineaufgaben automatisieren – ohne internen Teams zusätzlich Aufgaben zuweisen oder gar Neueinstellungen rechtfertigen zu müssen.

Gerade weil mit Ressourcen deutlich sparsamer umgegangen werden muss, profitieren KMU von den vielen Vorteilen des SRE wie der erhöhten Zuverlässigkeit, der besseren Softwareverfügbarkeit, den automatisierten Betriebsabläufen oder den schnelleren Behebungszeiten von Fehlern. Outsourcing ist mit Blick auf SRE also der Schlüssel zu einem geringeren unternehmerischen Risiko sowie geringeren Kosten.

Einer der Grundgedanken von SRE ist, dass sich durch Automatisierung und Überwachung umfangreicher Softwareprodukte eine nachhaltigere und langfristigere Lösung erzielen lässt als mit dem Eingreifen von Benutzern. Aus diesem Grund sind Site Reliability Engineers nicht nur schwer zu finden, sondern verdienen auch entsprechend. Laut des Jobbewertungsportals Glassdoor liegt das durchschnittliche Jahresgehalt im SRE in Deutschland bereits bei rund 85.000 Euro. Der Einsatz einer IT-Management-Plattform kann also betriebswirtschaftlich durchaus eine Überlegung wert sein.

Fazit
In einer Zeit, in der die IT-Welt von Innovationen und sich rasant verändernden Rahmenbedingungen geprägt ist, zeigt sich deutlich, dass die Verlässlichkeit von Systemen eine entscheidende Rolle spielt. IT-Teams, die auf Automatisierung, Transparenz und Prävention setzen, schaffen den Spagat zwischen technologischem Fortschritt und Stabilität. SRE kann Unternehmen aller Größenordnungen genau dabei unterstützen und ebnet den Weg zu langfristiger Verlässlichkeit sowie betriebswirtschaftlichen Vorteilen.

ln/André Schindler, General Manager EMEA bei NinjaOne

Site Reliability Engineering für KMU

Site Reliability Engineering für KMU

Tags

Ähnliche Beiträge

Effiziente Automatisierung in der Telko-Branche

Schatten-IT durch Low-Code in den Griff bekommen

Ansible für Gruppen (3)

Partner Links

Kontakt