greyicon blueicon

Das Parametrix Kontrollzentrum: Wie wir den AWS-ausfall vom 7. Dezember 2021 überwacht haben

Es begann mit einem unscheinbaren Alarm-Ton an einem ganz normalen Arbeitstag. Er signalisierte, dass ein Cloud-Dienst von Amazon Web Services (AWS) in der Region US-EAST-1 kleinere Schwierigkeiten hatte. Doch sehr bald war klar, dass sich ein größerer Ausfall entwickelte und dem Parametrix-Cloud-Überwachungsteam eine lange Nacht bevorstand.

In diesem Beitrag gehen wir auf die Parametrix Technologie, Methodik und die Teams ein, die für die Entwicklung unseres Cloud-Monitoring-Systems verantwortlich sind. Wir zeigen anhand des konkreten AWS-Cloud Ausfalls auf, wie die Zusammenarbeit auf allen Ebenen erfolgte.

Bewertung der Leistung und Verfügbarkeit der Cloud

Die Parametrix-Technologie wurde mit einem klaren Ziel entwickelt: Zuverlässige und umfassende Systeme bereitzustellen, um die Verfügbarkeit von SaaS, PaaS und IaaS in Echtzeit zu messen und bei Ausfällen Alarm zu schlagen.

Wir stellten ein Team von Cloud-Experten zusammen, um ein komplexes Geflecht von Überwachungssystemen zu entwickeln, um so Störungen im Betrieb der öffentlichen Cloud zu erkennen. Wir haben Spezialisten für Multi-Cloud-Infrastrukturen gesucht und gefunden, die in der Lage sind, riesige Datenmengen und Milliarden von Aktionen pro Sekunde zu verarbeiten und außerdem eine Affinität zu Netzwerkprotokollen und ein tiefes Verständnis der Cloud-Architektur und der geschäftlichen Anwendungsfälle besitzen.

Das Monitoring-Team in Aktion

Die Abhängigkeit von öffentlichen Cloud-Leistungen nimmt ständig zu und das gesamte Geflecht wird von Quartal zu Quartal komplexer, mit Hunderten von verschiedenen Diensten in Dutzenden von Rechenzentren auf der ganzen Welt. Hier den Überblick zu behalten, ist fast ein Ding der Unmöglichkeit. Fast.

Das Parametrix-Cloud-Monitoring-Team hat zwei Jahre lang geforscht und entwickelt und schließlich ein globales Echtzeit-Monitoring-System für mehrere Clouds realisiert. Das System führt über 100.000 Aktionen pro Minute aus und nutzt Netzwerkprotokolle sowie Cloud-APIs, um alle Dienste in hohen Intervallen über alle Zonen hinweg weltweit zu überwachen.

Der Teil des Systems, der sich mit der Netzwerküberwachung befasst, analysiert wie Dienste in verschiedenen Cloud-Zonen miteinander kommunizieren und wie sie mit Anwendungen außerhalb der Netze der Cloud-Anbieter kommunizieren. Das Ergebnis ist ein Tool, das jede noch so kleine Abweichung von der normalen Cloud-Leistung und -Verfügbarkeit feststellen kann – für jeden Dienst, in jeder Region oder Zone.

The Notorious US-EAST-1

Back to December 7.

Die berüchtigte US-EAST-1 Region

Kommen wir zurück zum 7. Dezember 2021.

Um 16:18 Uhr erhielten wir die erste Meldung, die auf ein Problem in der Region US-EAST-1 – dem wichtigsten AWS-Rechenzentrum – hinwies. Aus Erfahrung wissen wir, dass diese Region instabiler ist als andere. Ebenso ist bekannt, dass dort viele Kunden gehostet werden. Der Alarm wurde durch eine hohe Fehlerrate für die EC2-API ausgelöst – ein Dienst, der Kunden Rechenleistung zur Verfügung stellt, damit sie ihre Prozesse in großem Umfang ausführen können.

Kurz nach der ersten Warnung wurde eine weitere Warnung von AutoScaling ausgelöst, die darauf hinwies, dass der Dienst, der die Zugriffskapazität für Rechendienste anpasst, nicht hoch- oder herunterskaliert werden konnte. Viele andere Dienste folgten diesem Beispiel.

Die 100.000 Aktionen pro Minute, die unser Monitoring-System ausführt, überprüfen jeden Dienst in jeder Zone und jedem Netzwerk. Wir lösen Alarme aus, wenn wir “bad responses” erhalten, wenn wir keine Antworten erhalten oder wenn die Antworten langsamer als gewöhnlich erfolgen. Eine große Anzahl von Alarmen ist ein Zeichen dafür, dass mit der Cloud-Leistung etwas nicht in Ordnung ist.

Ab diesem Zeitpunkt befanden sich unsere Teams in vollem „Krisenmodus“. Sie analysierten das Ausmaß des Ausfalls und suchten Antworten auf einige wichtige Fragen: War das Ereignis auf AWS beschränkt? War es nur auf die Region US-EAST-1 beschränkt? Gab es andere Dienste, die ebenfalls betroffen waren, aber unterhalb unserer eigenen Alarmschwelle lagen?

Mehr Probleme im Anmarsch

Vier Minuten nach der ersten Meldung zeigte Downdetector – eine beliebte Plattform, auf der Nutzer Beschwerden über Ausfallzeiten melden können – einen starken Anstieg der Berichte über unterbrochene Dienste bei AWS. Dies bestätigte unsere erste Erkenntnis.

Zu dieser Zeit gab es noch keine Aktualisierung der Statusseite von AWS. Doch im Laufe der nächsten Stunde richteten mehrere Unternehmen, die auf AWS angewiesen sind, ihre eigenen Statusseiten ein und bestätigten eine Dienstunterbrechung. 

AWS aktualisierte seine Statusseite nach anderthalb Stunden. Dies dauerte also länger, als es gewöhnlich dauert, eine Unterbrechung zu melden und den Hintergrund zu erläutern.

Rückblickend findet sich hier ein Ausschnitt* der Liste der unterbrochenen Dienste:

*Die vollständige Liste umfasst viele weitere Dienstleistungen, bitte kontaktieren Sie uns diesbezüglich unter info@parametrixinsurance.com

Unverzügliche Analyse durch Parametrix

Die Hauptursache für den Cloud-Ausfall war eine Beeinträchtigung mehrerer Netzwerkgeräte in der Region US-EAST-1. Die unterbrochenen Dienste sind stark netzwerkabhängig, so dass es zu zeitweiligen Verfügbarkeits- oder Latenzproblemen kam.

Wir haben früh erkannt, dass das Problem nicht von einem bestimmten geografischen Gebiet ausgeht. Es betraf jeden, der versuchte über US-EAST-1 auf diese Dienste zuzugreifen, unabhängig davon, ob er aus den USA, Europa, Asien oder Afrika kam.

Wie haben wir unser System entwickelt?

Der Aufbau eines neuartigen Systems ist ein Abenteuer. Man kann leicht den Fokus verlieren und sich weit von seinem ursprünglichen Plan entfernen. Hinzu kommt die Herausforderung die Kosteneffizienz im Auge zu behalten: Die Durchführung so vieler Vorgänge in kurzer Zeit kann teuer werden.

Parametrix hat jedoch intelligente Wege gefunden, um reale Cloud-Anwendungsfälle zu simulieren und gleichzeitig die richtige Balance zwischen der Durchführung der richtigen Abfragen in den richtigen Zeitintervallen für jeden Cloud-Service und jedes Netzwerk zu finden.

Das Monitoring-Team in Aktion

“Es war eine Herausforderung, ein in der Cloud gehostetes System aufzubauen, das nicht zusammenbricht, wenn die Cloud ausfällt”, fasst Maayan Rabi, ein Mitglied unseres Teams, zusammen. “Wir mussten lernen, die Cloud von innen heraus zu überwachen und den schmalen Grat zwischen einem funktionierenden und einem gestörten Dienst zu bestimmen und zu definieren. Und selbst nachdem wir das geschafft haben, verbessern wir kontinuierlich die Belastbarkeit und Effizienz des Systems.”

Zusammenfassung des Ausfallereignisses vom 7. Dezember 2021 

Ausfallzeiten in der öffentlichen Cloud kommen häufig vor. Das Besondere an diesem Ereignis war die Menge der unterbrochenen Services und die Zeit, die AWS zur Behebung benötigte.

Probleme in US-EAST-1 sind nichts Neues. Es ist die Region mit den meisten Ausfallzeiten im gesamten AWS-Netzwerk. Was das Problem noch verschärft: Es verlassen sich viele Unternehmen für ihre Cloud-Dienste auf diese Region. Jahrelang war dies das nächstgelegene Rechenzentrum für US-Unternehmen östlich des Mississippi. Das war der Fall, bis AWS US-EAST-2 in Ohio errichtete – eine neue Standardregion. Wir erwarten, dass sich die Bedeutung von US-EAST-1 mit der Zeit auf US-EAST-2 verlagern wird. 

Dennoch ist es derzeit noch die am stärksten ausgelastete AWS-Cloud-Region. Man kann nur vermuten, dass dies zu der überdurchschnittlich hohen Rate an Ausfallzeiten beiträgt.

Welche Region ist die richtige für Ihr Unternehmen?

Die Wahl eines Anbieters und einer Region ist eine Aufgabe für Experten, die wissen, welche Schnittstellen und Dienste die Unternehmensziele am besten unterstützen.

Dennoch gibt es ein paar Anhaltspunkte, die auch ein Laie bei der Auswahl eines Rechenzentrums beachten sollte:

  • Die Region sollte in der Nähe Ihres Kundestamms liegen.
  • Interne Prozesse, die nicht kundenorientiert sind, sollten sich in der Nähe Ihres Hauptsitzes befinden.
  • Nicht alle Regionen bieten die gleichen Dienstleistungen an – vergewissern Sie sich, dass die von Ihnen gewählte Region alle Dienstleistungen anbietet, die Ihr Unternehmen benötigt.
  • Kosten sind ein Faktor, die je nach Anbieter und Region variieren.

Eine multi-regionale Systemarchitektur und die automatische Umleitung des Datenverkehrs in andere Regionen sind als Teil eines Notfallplans nützlich. Aber sie erhöhen Ihre Kosten. Wägen Sie ab, ob die von Ihnen angebotenen Dienste eine solche wirksame, aber kostspielige Maßnahme erfordern.

Wenn Sie Fragen zu diesem Beitrag oder zu anderen Themen rund um Parametrix haben, dann kontaktieren Sie uns gerne unter info@parametrixinsurance.com.

Könnte Ihnen ebenfalls gefallen

IT-Ausfallzeiten können
jederzeit auftreten. Wir
sichern Sie finanziell ab.

Rectangle 573
Rectangle 775
Rectangle 659