Observability: Hype oder Must-have?

13.09.2023 - 07:36

Veröffentlicht in:

Fachartikel

IT-Infrastrukturen sind heute umfassender und komplexer als je zuvor. Doch eine echte Transparenz und aktuelle Übersicht fehlt Unternehmen häufig. Systemverantwortliche und IT-Teams wenden viel Zeit auf, um vermeidbare Fehler nach dem Release zu beheben. Dies raubt IT-Fachkräften unnötig Ressourcen. Abhilfe schafft eine ganzheitliche Überwachung aller Einflüsse auf die Leistungsfähigkeit der Anwendungen. Lesen Sie, welche Ansätze und Werkzeuge sich dafür eignen.

Nicht funktionierende Technik ist ein Ärgernis, immer und überall. Manchmal ist sie allerdings noch mehr als das, nämlich geschäftsschädigend. Jedes Mal, wenn etwa Applikationen und Webanwendungen zu langsam oder gar nicht laden, vergrault das Nutzer. Betreibern entgehen teils signifikate Umsätze, wenn ihre Systeme nicht verfügbar sind. Um solche und ähnliche Probleme frühzeitig zu erkennen und ihnen langfristig vorzubeugen, ist das richtige Monitoring von IT-Systemen und -Anwendungen daher entscheidend.

Die IT-Strukturen in Unternehmen sind heutzutage hochgradig komplex und dynamisch. Eine echte Transparenz und aktuelle Übersicht fehlt den Unternehmen häufig. Der Einsatz von IaaS, SaaS und PaaS, Azure und AWS, Kubernetes und Docker sowie Serverless- und Mainframe-Computing schafft ein schwer zu lösendes Puzzle für die Systemadministration. Sie können eine Störung nur dann zuverlässig identifizieren und zuordnen, wenn das Gerüst für eine ganzheitliche Betrachtung gegeben ist. Isolierte Monitoringprodukte betrachten nur Teilaspekte oder nur bestimmte Teile der Infrastruktur, weshalb sie oftmals nicht ausreichend und zu aufwendig sind. Sie verzögern die Problemfindung und -lösung und kosten das IT-Team unnötig viele Kapazitäten, die sie an anderer Stelle besser einsetzen könnten.

Eine Umfrage unter IT-Experten im DACH-Raum zeigte etwa, dass knapp 50 Prozent der Befragten Performancemängel häufig erst bei der Inbetriebnahme feststellen. Probleme bei der Leistungsfähigkeit und Verfügbarkeit von Applikationen müssen sie also nachträglich diagnostizieren und beheben – ein ineffizienter Prozess. Hierbei verwenden die Systemverantwortlichen und IT-Teams rund einen Arbeitstag pro Woche damit, vermeidbare Fehler auszubügeln, während gleichzeitig die beeinträchtigten Systeme zu Umsatzeinbußen der Unternehmen führen. Das gilt insbesondere, wenn kritische Anwendungen und Prozesse betroffen sind. Wie sauber eine Anwendung funktioniert, sollten die zuständigen Fachkräfte daher bereits im Entwicklungszyklus prüfen – diesen Ansatz nennt man Shift Left. Ein geeignetes Werkzeug kann rechtzeitig Transparenz schaffen und Probleme im Live-Einsatz vermeiden.

Mehr Transparenz für echte Einblicke
Viele Unternehmen setzen bereits auf Monitoringtools, um die Leistung ihrer Anwendungen zu messen. Häufig sind dabei mehrere Werkzeuge parallel und isoliert im Einsatz. Diese beleuchten jeweils losgelöst nur einen kleinen Teil der zu beobachtenden Systeme und können keine umfassende Transparenz schaffen. Zudem sind die dabei verwendeten traditionellen APM-Werkzeuge mittlerweile technisch überholt: Sie signalisieren nur, dass eine Störung vorliegt und welche Konsequenzen diese hat. Wo genau die Ursache des Problems liegt, können sie nicht aufzeigen. Auch wenn klassische APM-Werkzeuge bereits enorme Datenmengen beim Monitoring der dynamischen, komplexen IT-Landschaften sammeln, fällt dem DevOps-Team immer noch ein enormer manueller Aufwand für die Analyse der eigentlichen Störungsursache zu. Ein modernes APM-Werkzeug ist in der Lage, bei der Auswertung der enormen Datenmenge zu unterstützen, indem es die verschiedenen Monitoringquellen zusammenführt und korreliert, mittels KI-basierter Lernverfahren automatisch Anomalien erkennt und insbesondere die wahrscheinliche Ursache einer Störung identifiziert.

Moderne APM-Werkzeuge implementieren den Ansatz Full Stack Observability. Dieser ermöglicht eine ganzheitliche Sicht auf Geschäftsvorfälle, Benutzererfahrungen, Anwendungen, Infrastruktur, Netzwerk und IT-Sicherheit. Dafür werden unter anderem Logs, Traces und Metriken aus unterschiedlichsten Quellen und Datentöpfen korreliert und konsolidiert. Interne statistische KI-Technologien ermöglichen den modernen APM-Werkzeugen, Anomalien im Performance-Verhalten von Anwendungen automatisiert zu erkennen und die Ursache einer Störung zu identifizieren. Im Idealfall können sie diese anschließend sogar automatisiert beseitigen. Das Ziel ist dabei, die "Mean Time to Repair" (MTTR) auf Null zu senken, um die Kapazitäten des DevOps-Teams möglichst effizient zu verwenden, etwa für neue Funktionalitäten, und gleichzeitig die Systeme reibungslos laufen zu lassen.

Anders als bisherige passive Monitoringansätze überwacht die aktive Observability Prozessketten Ende-zu-Ende, rund um die Uhr. Ergänzend zu den Daten, die klassische APM-Werkzeuge bieten, überwachen automatisierte Software-Bots jederzeit wichtige Geschäftsprozesse und Transaktionen. Und verhindern so den Frust von Anwendern über Technikstörungen. Denn die Bots führen Prozesse aus der Perspektive der externen Nutzer durch und stellen so sicher, dass Anwendungen, Infrastruktur, Netzwerk und IT-Security fehlerfrei funktionieren. Dadurch verschaffen Unternehmen ihren Administratoren einen besseren Überblick über die IT-Systeme und eliminieren blinde Flecken.

Diese Schritte sind für eine Full Stack Observability nötig
Liegen die Daten in Silos, ist es mit klassischen Monitoringwerkzeugen schwer, mit wenig Aufwand einen Mehrwert aus den vielen Informationen zu gewinnen. Bevor Unternehmen eine Observability-Umgebung aufbauen können, muss allerdings die Unternehmens-IT eine Bestandsaufnahme voranstellen und einige Fragen beantworten, zum Beispiel:

Welche sind unsere geschäftskritischen Prozesse und Anwendungen?
Welche Monitoringwerkzeuge nutzen wir und welche Erkenntnisse gewinnen wir damit?
Wo sind noch blinde Flecken in der Überwachung unserer geschäftskritischen Prozesse und Anwendungen?
Wie können wir die gegebenenfalls in Silos vorhandenen Daten verknüpfen und verbinden?
Wie können wir die Werkzeuge in unsere täglichen Workflows integrieren, um maximale Mehrwerte zu generieren?

Anschließend steht die Frage, welche ergänzenden APM-Technologien man benötigt: Soll es ein aktives Synthethic-Monitoring oder passives Real-User-Monitoring sein?

Synthetic-Monitoring verwendet simulierte Testszenarien, um die zu überwachenden Anwendungen oder Prozesse zu prüfen. Die eingesetzten Bots können dabei sowohl eine Perspektive innerhalb als auch außerhalb des Unternehmensnetzwerks einnehmen, um sicherzustellen, dass sowohl Internet- als auch Intranet-Anwendungen funktionieren. Sie können zudem ein internationales Netzwerk von Messstationen bilden, um die Verfügbarkeit und Performance aus unterschiedlichen Regionen zu testen.
Real-User-Monitoring prüft dagegen die tatsächlich passierenden Interaktionen zwischen Benutzern und Anwendungen. Dabei misst sie unter anderem Ladezeit, Seitenaufrufe und Verhaltensmuster. So erhalten Unternehmen ein unverfälschtes Abbild der tatsächlichen Benutzererfahrung. Um aussagekräftige Daten zu erzeugen, muss allerdings eine gewisse Menge an echtem Traffic über die gesamte Prozesskette vorliegen. Neue Applikationen, Funktionalitäten oder Prozesse werden hier zur Herausforderung.

Während das Synthetic Monitoring also fortlaufend die Prozesse und Anwendungen auf Fehler, Störungen und mögliche Performanceprobleme prüft, reflektiert es nicht die echten Nutzungserfahrungen. Zudem liefert es – anders als das Real User Monitoring – ausschließlich Daten zu vordefinierten Szenarien. Je nach Anforderung kann es also sinnvoll sein, eines von beiden einzusetzen oder sogar beides. Letzteres gilt insbesondere, um bei kritischen Anwendungen und Prozessen eine optimale Nutzerfahrung sicherzustellen.

Fazit
In den kommenden Jahren wird die IT-Infrastruktur noch vielfältiger und komplexer werden. Um Qualität und Kosten geschäftskritischer Anwendungen sicherzustellen, werden also intelligente Tools zunehmend wichtiger, die manuelle Routineaufgaben automatisieren können. Einen wichtigen Bestandteil solcher Lösungen wird Künstliche Intelligenz darstellen. KI kann das normale Performanceverhalten von Applikationen lernen und Abweichungen sofort melden. Ein KI-basiertes APM-Werkzeug kann sich zudem kontinuierlich und in Echtzeit Veränderungen im Performanceverhalten der Applikationen anpassen sowie Veränderungen und Zusammenhänge der Infrastruktur aufzeigen. Daraus ergibt sich ein intelligentes Überwachungssystem, das umfassende Transparenz über die gesamte IT-Landschaft mit allen wichtigen Anwendungen sowie Prozessen schafft.

ln/Dr. Matthias Fichtner, Projektleiter bei der Telekom MMS für das Thema Application Performance, speziell Observability und Monitoring

Observability: Hype oder Must-have?

Observability: Hype oder Must-have?

Tags

Ähnliche Beiträge

Bereit für den digitalen Wandel? Mit KI, Observability und Cloud sind Sie es

Im Test: SolarWinds Hybrid Cloud Observability

Zero Trust richtig umsetzen

Partner Links

Kontakt