Am 07. Dezember 2021 um 16:30 Uhr MEZ traten erste Störungen bei mehreren AWS-Diensten auf, was schließlich zu einem großen Cloud-Ausfall führte, der fast 7 Stunden dauerte und Tausende von Websites zum Absturz brachte, darunter wichtige Dienste wie Amazon, Tinder, Roku, Coinbase, Happy Games, Epic Games, Ring, Disney Plus und mehr.
Sieben Stunden nachdem unsere Monitoring-System Verfügbarkeitsprobleme gemeldet hatten, waren die meisten Dienste wiederhergestellt und die Verfügbarkeit war wieder auf dem Niveau von vor dem Ausfall. Parametrix stand während des gesamten Ereignisses in engem Kontakt mit unseren Kunden und bot ihnen Einblicke, Hilfe und Unterstützung.
Die berüchtigte US-EAST-1-Region
Die Hauptstörung betraf ein Rechenzentrum in der Region US-EAST-1, was zeigt, wie groß die Abhängigkeit von der Cloud im Allgemeinen und in dieser Region im Besonderen geworden ist und dass Ausfälle ein Risiko darstellen, mit dem alle Unternehmen konfrontiert werden können.
Unseren Analysten zufolge waren die am stärksten betroffenen Dienste EventBridge, Auto Scaling, EC2, DynamoDB, Elastic Load Balancer und API Gateway (aber auch andere Dienste waren betroffen oder sind ausgefallen). Das Ausmaß des Problems und die Tatsache, dass einige Dienste abwechselnd verfügbar und nicht verfügbar waren, deutet darauf hin, dass es ein Netzwerkproblem gab, das die Kommunikation der Server verhinderte.
Die Schäden sind zwar eindeutig und wurden in vielen Berichten erwähnt, aber erst die Untersuchung von Amazon wird die vollständigen Einzelheiten der Störung zeigen. Im Internet häuften sich Berichte und Beschwerden von Endnutzern über ausgefallene Dienste.
EventBridge
EventBridge ist ein serverloser Event-Bus (Pipeline), der die Entwicklung ereignisgesteuerter Anwendungen erleichtert. Es kann verwendet werden, um Anwendungen planmäßig auszuführen.
Dieser Dienst war über 12 Stunden außer Betrieb und verursachte einen Dominoeffekt bei vielen anderen Diensten, die aufgrund der EventBridge-Fehlfunktion nicht funktionsfähig waren. Viele Unternehmen starten Anwendungen über EventBridge. Diese Anwendungen konnten nicht ausgeführt werden, da EventBridge – aufgrund des Ausfalls – sie nicht starten konnte.
Auto Scaling
Auto Scaling hat eine einfache Aufgabe. Es überwacht die Anwendungen und passt ihre Zugriffskapazität auf die Rechendienste automatisch an, um eine konstante, planbare Leistung zu den geringstmöglichen Kosten zu gewährleisten.
Der Dienst war etwa 6,5 Stunden lang nicht erreichbar was zu weit reichenden Fehlern führte.
EC2
AWS Elastic Compute teilt den Kunden Rechenleistung zu, damit sie ihre Prozesse in großem Umfang ausführen können. Es scheint, dass alle API-Prozesse betroffen waren, was den Betrieb der Compute-Funktionen unmöglich machte. Virtuelle Maschinen, die bereits in Betrieb waren, funktionierten weiterhin, aber Kunden konnten wahrscheinlich weder neue Maschinen einrichten noch Konfigurationen für laufende Prozesse ändern. Ohne API-Zugang können virtuelle Maschinen auch nicht neu gestartet werden, wenn ein Fehler auftritt.
Der Dienst war etwa 7,5 Stunden lang beeinträchtigt.
DynamoDB
DynamoDB ist die AWS-eigene Datenbank, in der Kunden ihre Daten speichern. Wie bei EC2 können auch bei diesem Service keine API-Operationen verwaltet werden. Kunden können in die Datenbank schreiben, aber keine kritischen Funktionen wie Sicherung, Wiederherstellung oder Rollback ausführen.
Der Dienst war 6 Stunden und 45 Minuten lang beeinträchtigt.
Elastic Load Balancer
ELB ist das Äquivalent zur Verkehrsregelung für Websites. Sie verteilt den eingehenden Anwendungsverkehr automatisch auf die Server, so dass kein Rechner überlastet wird. Betroffen von der Störung waren offenbar Verwaltungsvorgänge, d. h. ELB funktionierte zwar, konnte aber nicht konfiguriert werden.
Der Dienst war für etwa 6 Stunden unterbrochen.
API Gateway
Hierbei handelt es sich um ein API-Verwaltungstool, mit dem Entwickler Tools erstellen, veröffentlichen, pflegen, überwachen und sichern können, die eine Schnittstelle zu anderen Anwendungen schaffen.
Der Dienst war etwa 8 Stunden lang nicht verfügbar.
Jetzt, wo der Ausfall vorbei ist, müssen die betroffenen Unternehmen in aller Welt ihre Schäden bewerten. Einige hatten mit Arbeitsausfällen zu kämpfen, andere mussten feststellen, dass ihre Websites nicht mehr erreichbar waren – was insbesondere für Online-Shops und Unterhaltungsangebote problematisch ist. Die meisten werden mit Kundenabwanderung und einem angeschlagenen Ruf zu kämpfen haben.
Jedes betroffene Unternehmen, das durch eine Parametrix-Versicherungspolice abgesichert ist, kann seine Versicherungsansprüche geltend machen und entstandene Schäden durch die vorab vereinbarte Entschädigungssumme schnell beheben.
