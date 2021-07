Lastverteilung bei InnoGames

InnoGames ist ein deutscher Entwickler von Mobile- und Onlinespielen und für "Forge of Empires", "Elvenar" und "Die Stämme" bekannt. 6500 virtuellen Maschinen laufen auf 350 Hypervisoren und sind auf drei Rechenzentren verteilt, in Spitzenzeiten fallen 1,8 Millionen Anfragen pro Stunde an. Dies erfordert rund um die Uhr Überblick über die Verteilung und Nutzung systemkritischer Ressourcen. Der Anwenderbericht stellt anhand realer Projektbeispiele einen Ansatz vor, um Lastverteilung zu optimieren und Steal Time in überlasteten Hypervisoren proaktiv und durch Automatisierung zu vermeiden.

Dass die Schornsteine der Hypervisoren nicht allzusehr rauchen, bewirkt bei InnoGames ein eigener Algorithmus zur Lastverteilung.

Als Hobby gestartet, beschäftigt InnoGames heute mehr als 400 Mitarbeiter aus über 30 Nationen. Das gesamte Portfolio umfasst sieben Live-Spiele und mehrere Mobile-Games. Um Millionen von täglichen Zugriffen auf die eigenen Server zu handhaben, braucht es stabile Systeme. Es ist wichtig, sich zu jeder Zeit einen Überblick über die Verteilung und Nutzung von systemkritischen Ressourcen verschaffen zu können, um dadurch mögliche Engpässe zu vermeiden.



Der Beginn des Anwenderberichts stellt die IT-Umgebung von InnoGames vor. Der zweite Abschnitt beschreibt den Lastverteilungs-Algorithmus, der durch inkrementelle Verbesserung das Problem von schlecht verteilten Ressourcen lösen soll.



Hypervisoren an der Belastungsgrenze

6500 virtuelle Maschinen laufen auf 350 Hypervisoren und sind über drei Rechenzentren auf der Welt verteilt. Zu Peak-Zeiten verzeichnen die Server 1,8 Millionen Anfragen pro Stunde. Ziel ist es, diese Last kann durch proaktives Umverteilen der virtuellen Maschinen gleichmäßig über die Hardware zu verteilen. Im Idealfall lassen sich täglich auftretende Schwankungen und der Einfluss von plötzlich auftretenden Ereignissen somit minimieren und ein flüssiges Spielerlebnis gewährleisten.



Jedes der Spiele hat ein unterschiedliches Auslastungsprofil. Die generelle Spitzenlast tritt täglich um 20 Uhr auf, jedoch erzeugen spezielle Events in den Spielen selbst deutlich mehr Last. Diese Events variieren zwischen den Spielen und starten zu unterschiedlichen Zeiten an unterschiedlichen Wochentagen. Hinzu kommt, dass durch regelmäßige Wartungsarbeiten an den Servern ein Teil der Hypervisoren evakuiert wird. Dabei ziehen virtuelle Maschinen auf Basis von speziellen Kriterien auf andere Hypervisoren um. Die von der IT-Abteilung genutzten Tools stellten allerdings kein Feature für die optimale Verteilung bereit.



In der beschriebenen Umgebung kam es dann in der Vergangenheit nicht selten dazu, dass einige Hypervisoren an ihre Auslastungsgrenzen stießen. Da sich die CPU-Performance durch starke Nutzung durch die Hypervisoren bei aktiviertem Hyperthreading bereits vor der maximalen Auslastung zu verschlechtern beginnt, ist es besonders wichtig, Überlastungen zu vermeiden. Zu den größten Performance-Einbußen bei den Spielen kommt es dadurch, dass virtuellen Maschinen nicht die eigentlich benötigte CPU-Zeit auf ihrem Host bekommen (Steal Time). Je näher der Hardware-Server an seine CPU-Grenzen stößt, desto ausgeprägter zeigt sich diese Stealtime. Aus diesem Grund ist es wichtig, die Auslastung der Hypervisoren ständig zu überwachen und zu optimieren.