Lesezeit
3 Minuten
Seite 2 - Netzwerk-Troubleshooting im Datacenter der TU Graz
Frühzeitige Erkennung von möglichen Problemen
Ein anderer Anwendungsfall betraf eine auffällige Datenmenge, die beim täglichen Monitoring ins Auge fiel. Es handelte sich um eine für einen Rechner außergewöhnlich große 1,3-GBit/s-Verbindung im Internet-Downlink. In den graphischen Statistiken im Monitoring fiel dies sofort als großer Ausreißer aus der Normalnetzwerklast auf. Solche Vorfälle können Hinweise auf Sicherheitsprobleme oder Fehlkonfigurationen sein. "Mit einem Klick haben wir uns vom Dashboard zu den Peers navigiert und sofort erkannt, zwischen welchen beiden Systemen der Traffic stattfindet", erläutert Rammer die Situation. "Ein Telefonanruf bei den Kollegen genügte, um uns zu versichern, dass es sich um geplanten Traffic handelt. Es lag also kein Problem vor, hätte aber eines sein können. Die Kenntnis und Analyse solcher Lastspitzen ist wertvoll für die langfristige Qualitätssicherung unseres Netzwerkes." Zur Identifizierung solcher Probleme reicht keine globale Übersicht über die Netzwerkauslastung. Das Network Multimeter kann hier in Echtzeit für einzelne Netzwerkteilnehmer die Last auflösen und so in Zukunft zusammen mit anderen Tools wertvolle Informationen über Verkehrsanomalien liefern.
Das Allegro 3500 ist im Datacenter installiert, zwischen dem Datacenter-Router und dem Application Delivery Controller (ADC) beziehungsweise der Firewall, sodass sich neben Client-Server-Verbindungen auch die Daten zwischen Servern messen und debuggen lassen. Hier ereignete sich der dritte Anwendungsfall: Ein Dienst, der über einen HAProxy/Reverse-Proxy auf dem ADC bereitgestellt wird, zeigte ein völlig unerklärliches Verhalten zwischen mehreren Clients und dem Server. Für die Analyse wurden aus 10 TByte kurzfristig aufgezeichneten Daten die 16 Pakete herausgefiltert, die Aufschluss über das Fehlverhalten gaben. Daraus wurde sofort ersichtlich, dass der TCP-Port, auf den die Daten geleitet wurden, am ADC falsch konfiguriert war. "Sobald wir das Problem ausgemacht hatten, war die Lösung sehr einfach", beschreibt Rammer die schnelle Fehlersuche mit dem Allegro Network Multimeter. "Durch die hohe Granularität der Messungen lassen sich Fehler extrem schnell diagnostizieren, in diesem Fall dauerte es nur zwei Minuten."
Datenmengen an die Bedürfnisse anpassen
An der TU Graz gibt es großes Traffic-Aufkommen. Obwohl das eingesetzte Tool hohe Datenmengen neben der Live-Analyse auch für nachträgliches Troubleshooting aufzeichnen kann, ist es aus verschiedenen Gründen nicht sinnvoll, den gesamten Verkehr aufzuzeichnen. Im ersten Schritt haben daher Rammer und sein Team die Datenmenge, die beim Mitschneiden entsteht, mit Hilfe von Filtern angepasst und auf die wirklich wichtigen Parameter reduziert. Das Network Multimeter lässt sich hierfür einfach und feingranular steuern. So haben sie zum Beispiel die Paketlängen beschnitten, einige VLANs ausgeklammert, den RAM-Cache für kurze Lastspitzen angepasst, bis eine Konfiguration erreicht war, die wesentlich weniger Daten produziert und trotzdem alle relevanten Informationen liefert.
Im zweiten Schritt hat das IT-Team das Gerät, das wahlweise mit oder ohne Festplatten verkauft wird, mit weiteren Festplatten ausgestattet. Hierfür eignen sich handelsübliche Festplatten, die in größeren Firmen oft auch vorrätig sind. Das Allegro 3500 hat dafür ein Fassungsvermögen von 36 Festplatten.
Es ist nicht immer das Netzwerk schuld!
Seit dem Einsatz des Geräts kam es noch nicht zu schwerwiegenden Netzwerkproblemen. Trotzdem ist es schon jetzt zu einem wichtigen Instrument für die Administratoren geworden, weil sich mit dessen Hilfe Probleme mit dem Netzwerk finden, aber gegebenenfalls auch ausschließen lassen, erzählt Rammer. "Sehr hilfreich sind die Response Time Charts, die genau darüber informieren, ob ein Problem wirklich im eigenen Service besteht oder vielleicht doch an anderer Stelle. Wenn eine TCP-Statistik für die letzten drei Stunden die Handshake-Zeit von 20 oder weniger Millisekunden aufweist, ist das ein hilfreicher Anhaltspunkt dafür, ob ein Netzwerkproblem vorliegen könnte oder eben nicht, weil beispielsweise etwas bei der Datenverarbeitung auf Betriebssystem- oder Applikationsebene schiefläuft." Das erleichtert im Endeffekt sowohl dem Netzwerk- als auch den Applikationsbetriebsteams die Fehlersuche durch schnellere Eingrenzung der Fehlerdomäne enorm.
Für solche Fälle bietet das Allegro Network Multimeter das Analyse-Modul "TCP Zero Window". Ein Client schickt eine große Datenmenge, der Server empfängt diese und bestätigt, dass er sie bekommen hat. Die übergeordnete Applikation kann diese Daten jedoch nicht verarbeiten. Der Server meldet dann ein TCP Zero Window. Das heißt, das Netzwerk funktioniert einwandfrei, aber der Endpunkt kommt mit der Verarbeitung der Daten nicht nach.
Ein gutes Beispiel dafür ist ein Backup: Der Rechner schickt mit 1 GBit/s das Backup, aber der Server kann das nicht so schnell annehmen. Der TCP-Empfangspuffer wird immer voller und schließlich meldet der Netzwerktreiber des Servers, dass er keinen Platz mehr hat, Daten entgegenzunehmen, weil der übergeordnete Dienst zu langsam ist. Solch ein Szenario wird vom Network Multimeter erkannt. Die Messungen zeigen, dass es kein Netzwerkproblem ist, sondern dass das Endgerät am Leistungslimit liegt.
Fazit
Insgesamt macht das Allegro Network Multimeter den IT-Verantwortlichen der TU Graz das Leben deutlich einfacher, wie Rammer bestätigt: "Das Schöne ist, dass es trotz seiner mächtigen Performance so unkompliziert ist. Uns gefällt auch, dass es ein Webinterface ohne zusätzliche lokale Applikation, Server, Datenbanken und Sonstiges ist, was gewartet werden müsste. Das war für uns ein essentielles Kaufargument, denn das ist neu. Vor dem Einsatz des Tools gestaltete sich die Netzwerkanalyse sehr mühsam."
ln/Klaus Degner, Geschäftsführer von Allegro Packets
Ein anderer Anwendungsfall betraf eine auffällige Datenmenge, die beim täglichen Monitoring ins Auge fiel. Es handelte sich um eine für einen Rechner außergewöhnlich große 1,3-GBit/s-Verbindung im Internet-Downlink. In den graphischen Statistiken im Monitoring fiel dies sofort als großer Ausreißer aus der Normalnetzwerklast auf. Solche Vorfälle können Hinweise auf Sicherheitsprobleme oder Fehlkonfigurationen sein. "Mit einem Klick haben wir uns vom Dashboard zu den Peers navigiert und sofort erkannt, zwischen welchen beiden Systemen der Traffic stattfindet", erläutert Rammer die Situation. "Ein Telefonanruf bei den Kollegen genügte, um uns zu versichern, dass es sich um geplanten Traffic handelt. Es lag also kein Problem vor, hätte aber eines sein können. Die Kenntnis und Analyse solcher Lastspitzen ist wertvoll für die langfristige Qualitätssicherung unseres Netzwerkes." Zur Identifizierung solcher Probleme reicht keine globale Übersicht über die Netzwerkauslastung. Das Network Multimeter kann hier in Echtzeit für einzelne Netzwerkteilnehmer die Last auflösen und so in Zukunft zusammen mit anderen Tools wertvolle Informationen über Verkehrsanomalien liefern.
Das Allegro 3500 ist im Datacenter installiert, zwischen dem Datacenter-Router und dem Application Delivery Controller (ADC) beziehungsweise der Firewall, sodass sich neben Client-Server-Verbindungen auch die Daten zwischen Servern messen und debuggen lassen. Hier ereignete sich der dritte Anwendungsfall: Ein Dienst, der über einen HAProxy/Reverse-Proxy auf dem ADC bereitgestellt wird, zeigte ein völlig unerklärliches Verhalten zwischen mehreren Clients und dem Server. Für die Analyse wurden aus 10 TByte kurzfristig aufgezeichneten Daten die 16 Pakete herausgefiltert, die Aufschluss über das Fehlverhalten gaben. Daraus wurde sofort ersichtlich, dass der TCP-Port, auf den die Daten geleitet wurden, am ADC falsch konfiguriert war. "Sobald wir das Problem ausgemacht hatten, war die Lösung sehr einfach", beschreibt Rammer die schnelle Fehlersuche mit dem Allegro Network Multimeter. "Durch die hohe Granularität der Messungen lassen sich Fehler extrem schnell diagnostizieren, in diesem Fall dauerte es nur zwei Minuten."
Datenmengen an die Bedürfnisse anpassen
An der TU Graz gibt es großes Traffic-Aufkommen. Obwohl das eingesetzte Tool hohe Datenmengen neben der Live-Analyse auch für nachträgliches Troubleshooting aufzeichnen kann, ist es aus verschiedenen Gründen nicht sinnvoll, den gesamten Verkehr aufzuzeichnen. Im ersten Schritt haben daher Rammer und sein Team die Datenmenge, die beim Mitschneiden entsteht, mit Hilfe von Filtern angepasst und auf die wirklich wichtigen Parameter reduziert. Das Network Multimeter lässt sich hierfür einfach und feingranular steuern. So haben sie zum Beispiel die Paketlängen beschnitten, einige VLANs ausgeklammert, den RAM-Cache für kurze Lastspitzen angepasst, bis eine Konfiguration erreicht war, die wesentlich weniger Daten produziert und trotzdem alle relevanten Informationen liefert.
Im zweiten Schritt hat das IT-Team das Gerät, das wahlweise mit oder ohne Festplatten verkauft wird, mit weiteren Festplatten ausgestattet. Hierfür eignen sich handelsübliche Festplatten, die in größeren Firmen oft auch vorrätig sind. Das Allegro 3500 hat dafür ein Fassungsvermögen von 36 Festplatten.
Es ist nicht immer das Netzwerk schuld!
Seit dem Einsatz des Geräts kam es noch nicht zu schwerwiegenden Netzwerkproblemen. Trotzdem ist es schon jetzt zu einem wichtigen Instrument für die Administratoren geworden, weil sich mit dessen Hilfe Probleme mit dem Netzwerk finden, aber gegebenenfalls auch ausschließen lassen, erzählt Rammer. "Sehr hilfreich sind die Response Time Charts, die genau darüber informieren, ob ein Problem wirklich im eigenen Service besteht oder vielleicht doch an anderer Stelle. Wenn eine TCP-Statistik für die letzten drei Stunden die Handshake-Zeit von 20 oder weniger Millisekunden aufweist, ist das ein hilfreicher Anhaltspunkt dafür, ob ein Netzwerkproblem vorliegen könnte oder eben nicht, weil beispielsweise etwas bei der Datenverarbeitung auf Betriebssystem- oder Applikationsebene schiefläuft." Das erleichtert im Endeffekt sowohl dem Netzwerk- als auch den Applikationsbetriebsteams die Fehlersuche durch schnellere Eingrenzung der Fehlerdomäne enorm.
Für solche Fälle bietet das Allegro Network Multimeter das Analyse-Modul "TCP Zero Window". Ein Client schickt eine große Datenmenge, der Server empfängt diese und bestätigt, dass er sie bekommen hat. Die übergeordnete Applikation kann diese Daten jedoch nicht verarbeiten. Der Server meldet dann ein TCP Zero Window. Das heißt, das Netzwerk funktioniert einwandfrei, aber der Endpunkt kommt mit der Verarbeitung der Daten nicht nach.
Ein gutes Beispiel dafür ist ein Backup: Der Rechner schickt mit 1 GBit/s das Backup, aber der Server kann das nicht so schnell annehmen. Der TCP-Empfangspuffer wird immer voller und schließlich meldet der Netzwerktreiber des Servers, dass er keinen Platz mehr hat, Daten entgegenzunehmen, weil der übergeordnete Dienst zu langsam ist. Solch ein Szenario wird vom Network Multimeter erkannt. Die Messungen zeigen, dass es kein Netzwerkproblem ist, sondern dass das Endgerät am Leistungslimit liegt.
Fazit
Insgesamt macht das Allegro Network Multimeter den IT-Verantwortlichen der TU Graz das Leben deutlich einfacher, wie Rammer bestätigt: "Das Schöne ist, dass es trotz seiner mächtigen Performance so unkompliziert ist. Uns gefällt auch, dass es ein Webinterface ohne zusätzliche lokale Applikation, Server, Datenbanken und Sonstiges ist, was gewartet werden müsste. Das war für uns ein essentielles Kaufargument, denn das ist neu. Vor dem Einsatz des Tools gestaltete sich die Netzwerkanalyse sehr mühsam."
ln/Klaus Degner, Geschäftsführer von Allegro Packets