greyicon blueicon

Ein Rückblick: Die größten Cloud-Ausfallereignisse des Jahres 2020

Das vergangene Jahr war sicherlich unberechenbar und hat uns alle auf eine Achterbahnfahrt der Ungewissheit geschickt. Das Coronavirus hat uns in vielerlei Hinsicht auf die Probe gestellt. Wir haben erlebt, wie Menschen zusammenkamen, um sich gegenseitig zu unterstützen. Pharmaunternehmen haben in Rekordzeit einen Impfstoff entwickelt. Und natürlich haben sich Technologieunternehmen eingesetzt und ihre Lösungen weiterentwickelt, damit Teams miteinander in Verbindung bleiben und Unternehmen auch dann am Laufen gehalten werden können, wenn die Mitarbeiter zu Hause bleiben müssen.

Die Anbieter von Cloud-Technologien haben alles getan, um den neuen Anforderungen und dem steigenden Bedarf gerecht zu werden, da immer mehr Unternehmen digitale Technologien einsetzen. Allerdings gab es auch einige Stolpersteine auf dem Weg, einige im Zusammenhang mit der Pandemie, andere nicht.

Wir können erleichtert sein, dass es in diesem Jahr keine großen Katastrophen gegeben hat, und die schlimmsten Ausfälle innerhalb weniger Stunden behoben werden konnten. Das heißt aber nicht, dass Unternehmen nicht durch unerwartete Ausfallzeiten beeinträchtigt wurden.

Werfen wir einen Blick auf einige der größten Ausfallereignisse des vergangenen Jahres – ein Jahr, das eine noch nie dagewesene Abhängigkeit von Cloud-Technologien mit sich brachte und die Arbeitsweise von Unternehmen veränderte.

3. März: Microsoft Azure

Das Microsoft Azure-Rechenzentrum US-East war von einem sechsstündigen Ausfall betroffen, wodurch die Verfügbarkeit der Cloud-Dienste für Kunden, die auf dieses Rechenzentrum angewiesen sind, eingeschränkt wurde. Microsoft erklärte, dass das Problem durch einen Ausfall des Kühlsystems verursacht wurde. Da die Temperaturen stiegen, konnten die Netzwerkgeräte nicht mehr korrekt arbeiten, so dass die Rechen- und Speicherinstanzen nicht mehr zugänglich waren. Als sich die Temperaturen wieder normalisierten, wurde die Hardware von den Technikern wieder in Betrieb genommen, und die Dienste wurden wiederhergestellt.

26. März: Google Cloud

Erhöhte Fehlerraten bei Google Cloud IAM führten zu einer dreieinhalbstündigen Unterbrechung vieler Dienste in mehreren Regionen. Google führte die Ausfallzeit auf eine “Massenaktualisierung von Gruppenmitgliedschaften zurück, die zu einer unerwartet hohen Anzahl von geänderten Berechtigungen führte, was einen großen Rückstau von Änderungen in der Warteschlange erzeugte, die in Echtzeit angewendet werden mussten.” Den Cache-Servern ging der Speicher aus, wodurch IAM-Anfragen eine Zeitüberschreitung verursachten. Die Techniker starteten die Cache-Server mit zusätzlichem Speicher neu, um die Auswirkungen abzumildern, während sie versuchten, die veralteten Daten zu korrigieren und die Offline-Backfill-Daten auf die Server zu laden.

April: GitHub

Im April kam es bei GitHub zu zwei Ausfällen. Am 2. April führte eine Fehlkonfiguration von Software-Load-Balancern zu einem fast zweistündigen Ausfall, der ein Problem bei der Bereitstellung von Load-Balancern durch Entwickler für Websites verursachte. Am 21. April waren alle GitHub-Nutzer und -Dienste betroffen, als eine Fehlkonfiguration von Datenbankverbindungen unerwartet in Betrieb ging.

9. Juni: IBM Cloud

Bei IBM kam es zu einem mehr als dreistündigen Ausfall, von dem 80 Rechenzentren in aller Welt betroffen waren. Da auch die IBM-Statusseite nicht erreichbar war, begannen die Kunden darüber zu spekulieren, was einen solchen globalen Ausfall verursacht haben könnte, wobei einige davon ausgingen, dass es sich um ein BGP-Hijacking handeln könnte. Zwei Tage später veröffentlichte IBM eine Erklärung, in der es hieß, dass ein “externer Netzwerkanbieter das IBM Cloud-Netzwerk mit fehlerhaftem Routing überflutet hat, was zu einer starken Überlastung des Datenverkehrs geführt und die IBM Cloud-Services und unsere Rechenzentren beeinträchtigt hat. Es wurden Abhilfemaßnahmen ergriffen, um eine Wiederholung des Vorfalls zu verhindern. Die Ursachenanalyse hat keine Datenverluste oder Cybersicherheitsprobleme ergeben.”

17. Juli: Cloudflare

Ein kurzer 27-minütiger Ausfall von Cloudflare verursachte einen 50-prozentigen Rückgang des Datenverkehrs in seinem Netzwerk. Um die Überlastung eines Routers in Atlanta zu verringern, aktualisierte das Technikteam die Konfiguration, aber durch einen Fehler wurde der gesamte Datenverkehr über das Backbone von Cloudflare nach Atlanta geleitet, wodurch der Router überlastet wurde. Einige Standorte in den USA, Europa, Russland und Südamerika waren davon betroffen, während andere weiterhin normal arbeiteten. Nachdem der Vorfall behoben war, gab das Unternehmen bekannt, dass es “bereits eine globale Änderung an der Backbone-Konfiguration vorgenommen hat, die verhindern wird, dass so etwas noch einmal vorkommen kann.”

11. August: Salesforce

Fast vier Stunden lang konnten einige Salesforce-Kunden aufgrund eines Stromausfalls nicht auf den Dienst zugreifen. Salesforce teilte mit, dass einige Nutzer, die auf seiner NA89-Instanz gehostet werden, die in den Rechenzentren in Phoenix und Washington D.C. läuft, davon betroffen waren. Um das Problem zu lösen, leitete das Unternehmen den Datenverkehr um und führte einen Notfall-Site-Switch durch. Diese Maßnahme verursachte ein Problem mit dem Live-Agententool von Salesforce, das jedoch innerhalb weniger Minuten behoben war.

20. August: Google

G Suite-Nutzer konnten keine E-Mails versenden, keine Dateien freigeben, keine Nachrichten in Google Chat posten, kein Google Voice verwenden und auch keine anderen Aktivitäten durchführen, für die die Geschäftsanwendungen von Google erforderlich waren. Nach 6 Stunden Ausfallzeit waren die Dienste vollständig wiederhergestellt.

24. August: Zoom

Zoom-Nutzer in den USA und Großbritannien konnten weder auf die Website (zoom.us) zugreifen noch Zoom-Meetings oder Webinare starten oder daran teilnehmen. Das Problem begann mit dem Beginn des Arbeitstages an der Ostküste, wobei die Kunden von unterschiedlich starken Störungen berichteten. Einige Nutzer meldeten, dass nur die Weboberfläche nicht funktionierte, während andere den kompletten Service nicht nutzen konnten. Etwa fünf Stunden später teilte Zoom mit, dass die Dienste wieder voll funktionsfähig seien, gab aber nicht bekannt, was die Störung ausgelöst hatte.

28. September: Microsoft Azure & Microsoft 365

Benutzer in ganz Amerika waren 5 Stunden lang ohne Zugang zu Azure, Microsoft 365, Dynamics 365 und benutzerdefinierten Anwendungen, die den Azure Active Directory Single Sign-On-Dienst nutzen. Diejenigen, die sich bereits angemeldet hatten, hatten jedoch keine Probleme. Microsoft teilte mit, dass drei unabhängige Probleme den Ausfall verursachten: ein Service-Update mit einem Codefehler, ein Tooling-Fehler im sicheren Bereitstellungssystem von Azure AD und ein Codefehler im Rollback-Mechanismus von Azure AD.

25. November: AWS

In den frühen Morgenstunden erlebten Unternehmen, die auf Amazons Region US-East-1 zurückgreifen und Kinesis nutzen, einen erheblichen Ausfall, der laut Amazon auf eine “relativ kleine Kapazitätserweiterung” der Front-End-Flotte zurückzuführen war. Diese Kapazitätserweiterung führte dazu, dass alle Server in der Flotte die maximale Anzahl von Threads, die von einer Betriebssystemkonfiguration zugelassen wird, überschritten. Der Ausfall, der mit Amazons Kinesis-Dienst begann, wirkte sich schnell auf andere Dienste aus, darunter CloudWatch und Amazon Cognito.

In Bezug auf Cognito berichtete Amazon in seinem Post-Mortem, dass “das anhaltende Problem mit Kinesis Datenströmen einen latenten Bug in diesem Buffering-Code auslöste, der dazu führte, dass die Cognito-Webserver begannen, die zurückgestauten Buffer für Kinesis-Datenströme zu blockieren. Infolgedessen kam es bei Cognito-Kunden zu vermehrten API-Ausfällen und erhöhten Latenzen für Cognito User Pools und Identity Pools, was externe Benutzer daran hinderte, sich zu authentifizieren oder temporäre AWS-Anmeldedaten zu erhalten.

14. Dezember: Google Cloud Platform & Google Workspace

Etwa eine Stunde lang traten bei vielen Nutzern Probleme auf, wenn sie versuchten, sich bei der Google-Cloud-Plattform und den Workspace-Diensten wie Gmail, Google Drive, Google Classroom und YouTube anzumelden; diejenigen, die bereits angemeldet waren, hatten jedoch keine Probleme beim Zugriff auf die Anwendungen. Das Unternehmen arbeitete umgehend daran, die Probleme mit Google Mail zu beheben. In seinem Post-Mortem erklärte das Unternehmen, dass die Ursache des Fehlers darin lag, dass die internen Tools des Unternehmens den Diensten, die für die Authentifizierung zuständig sind, nicht genügend Speicherplatz zugewiesen haben.

Bei Parametrix sagen wir: Ausfallzeiten können jederzeit auftreten. Sie sind für Unternehmen in vielerlei Hinsicht störend und belastend, aber wir können die Verfügbarkeit externer Dienstleistungen nicht kontrollieren. Unternehmen müssen zwar akzeptieren, dass es zu Ausfällen kommen kann, aber das bedeutet nicht, dass sie sich einfach zurücklehnen und nichts tun müssen. Es gibt Möglichkeiten, das Ausfallrisiko zu mindern, von der Schaffung von Redundanzen bis hin zur Absicherung des finanziellen Risikos durch eine Versicherung.

Könnte Ihnen ebenfalls gefallen

IT-Ausfallzeiten können
jederzeit auftreten. Wir
sichern Sie finanziell ab.

Rectangle 573
Rectangle 775
Rectangle 659