Der AWS-Ausfall, der in den frühen Morgenstunden des 25. November begann, betraf vor allem Unternehmen, die ihre Systeme in Amazons Region Northern Virginia US-East-1 betreiben und den Kinesis-Dienst oder andere AWS-Dienste nutzen, die auf Kinesis angewiesen sind. Die Auswirkungen waren bei Unternehmen wie Adobe Spark, Roku und iRobot zu spüren, die alle bestätigten, dass bei einigen ihrer Dienste, Anwendungen und Websites Probleme auftraten. Es ist wichtig zu erwähnen, dass AWS-Benutzer in anderen Regionen oder solche, die Kinesis nicht verwenden, nicht betroffen waren.
In einer Erklärung von Amazon heißt es, dass der Ausfall auf eine “relativ kleine Kapazitätserweiterung” seiner Front-End-Flotte zurückzuführen war, die “dazu führte, dass alle Server in der Flotte die maximale Anzahl von Threads überschritten, die von einer Betriebssystemkonfiguration zugelassen wird”. Dies breitete sich schnell aus und beeinträchtigte mehrere andere wichtige Amazon-Dienste in der Region US-East-1, darunter Amazon Cognito, CloudWatch und Lambda, eine serverlose Computing-Infrastruktur.
In seiner Erklärung entschuldigte sich Amazon und betonte, “wie wichtig dieser Service und die anderen AWS-Services, die betroffen waren, für unsere Kunden, ihre Anwendungen und Endbenutzer sowie ihre Unternehmen sind. Wir werden alles daran setzen, aus diesem Ereignis zu lernen und es zu nutzen, um unsere Verfügbarkeit noch weiter zu verbessern.” Dieser Vorfall unterstreicht die unglaubliche Abhängigkeit vieler Unternehmen von der Technologie Dritter (die sich ihrer Kontrolle entzieht) und die Tatsache, dass sie der Verfügbarkeit von Amazon, Microsoft, Google und anderen Cloud-Service-Anbietern ausgeliefert sind.
Vor diesem Hintergrund möchte ich einige Strategien vorstellen, die Unternehmen anwenden können, um die negativen Auswirkungen von IT-Ausfällen durch Dritte zu vermeiden und ihre Risiken im Falle einer Geschäftsunterbrechung zu minimieren.
Cloud Strategie 1: Redundanz schaffen
Aufgrund des jüngsten Ausfalls diskutieren viele Unternehmen nun, ob sie in redundante Datenspeicher und Cloud-Produkte investieren sollten. Unternehmen, die diese Strategie bereits anwenden, hätten keine Ausfallzeiten zu verzeichnen gehabt. Diejenigen, die die Geschäftskontinuität beim nächsten Ausfall sicherstellen wollen, können sich mit einer Multi-Cloud- oder Multi-Regionen-Strategie schützen, aber die Kosten dafür sind für einige Unternehmen unverhältnismäßig hoch.
Die Verdopplung Ihrer Infrastruktur und die Ausführung von Arbeitslasten in zwei verschiedenen Regionen oder bei zwei verschiedenen Cloud-Anbietern könnte zu einer Verdopplung oder sogar Verdreifachung Ihrer Kosten führen, weshalb viele Unternehmen nicht die finanziellen Mittel haben, diese Strategie in die Praxis umzusetzen.
Wenn Sie sich für diese Strategie entscheiden, sollten Sie sich über die Risiken im Klaren sein und wissen, ob sich Ihre Investition durch diese Art von Vorsichtsmaßnahme amortisieren wird. Um eine Schätzung der damit verbundenen Kosten zu erhalten, werfen Sie einen Blick auf den AWS-Rechner von Amazon.
Cloud Strategie 2: Nutzung anderer Regionen
Ausfälle und Ausfallzeiten sind bei AWS keine Seltenheit, aber die Region US-East-1 leidet darunter mehr als jede andere Region. In den letzten Jahren haben wir in dieser Region mehr Ausfallzeiten als in anderen Regionen festgestellt. Der Grund hierfür könnte darin liegen, dass diese Region die Standardregion ist, über mehr Verfügbarkeitszonen als die meisten anderen verfügt, die meisten Kunden hat und die neuesten Versionen zuerst ausrollt.
Im März 2018 kam es in der Region innerhalb von zwei Stunden zu zwei separaten Stromausfällen, von denen etwa 240 kritische Dienste betroffen waren, und Unternehmen wie Slack, Twilio und Atlassian meldeten Probleme. Es stellte sich heraus, dass alle Unternehmen in der Region, die den AWS-Direct-Connect-Service nutzen, betroffen waren.
Ein Jahr zuvor gab es bei AWS einen Ausfall, der den Simple Storage Service (S3) in derselben Region betraf. Das Ereignis von 2017 wurde auf menschliches Versagen zurückgeführt. Während der Fehlerbehebung eines Problems gab ein Techniker einen Befehl falsch ein, was einen ungeplanten Neustart auslöste. Das Ereignis dauerte mehr als 4 Stunden und betraf Expedia, Medium, Slack und die U.S. Securities and Exchange Commission. Außerdem stellte Apica fest, dass 54 der 100 größten E-Commerce-Websites aufgrund des Vorfalls Leistungseinbußen von 20 % oder mehr hinnehmen mussten.
Wenn Ihr Rechenzentrum in der Region US-East-1 angesiedelt ist, könnte ein Wechsel der Region eine sinnvolle Strategie sein, um Ihr Risiko zu mindern. Die Verlagerung Ihres gesamten Systems in eine neue Region kann jedoch teuer werden, wenn die Infrastruktur nicht für derartige Änderungen ausgelegt ist.
Cloud Strategie 3: Das finanzielle Ausfallrisiko durch eine Versicherung absichern
Eine Versicherung wie die von Parametrix Insurance kann Ihnen eine Option zur Risikoübertragung bieten, die sich auch die meisten KMU leisten können. Unsere Versicherungen sind so konzipiert, dass sie den Bedürfnissen der heutigen technologieabhängigen Unternehmen gerecht werden, indem sie über ein parametrisches Modell einen flexiblen Versicherungsschutz bieten. Jedes Unternehmen kann die Schwellenwerte für die Police individuell festlegen, und bei Erreichen dieser Schwellenwerte wird die Versicherungsleistung automatisch ausgezahlt.
Unsere Policen können einen Ausfall zwar nicht verhindern, aber sie können Ihnen helfen, Kontinuität und finanzielle Stabilität zu wahren. Bei der Festlegung der Parameter Ihrer Police können Sie Verpflichtungen wie SLA-Verpflichtungen, optionale Zahlungen zur Entschädigung von Kunden und die Kosten für die Behebung von Reputationsschäden und vieles mehr berücksichtigen. Mit vorab festgelegten Parametern und Auszahlungsbeträgen können wir schnell eine Entschädigung bereitstellen, die es Unternehmen ermöglicht, die Betriebsfähigkeit so schnell wie möglich wiederherzustellen.
Vorbereitungen für die nächste Störung
Wenn ein Cloud-Dienst ausfällt, ist das schmerzhaft und schädlich für Ihr Geschäft. Cloud-Anbieter garantieren keine 100%ige Betriebszeit. Wenn also die Verfügbarkeit zusammenbricht, was im Laufe des Jahres gelegentlich vorkommt, erhalten Sie eine Gutschrift für die ausgefallenen Dienste. Sie werden jedoch nicht für die entstandenen Wiederherstellungskosten einschließlich der Kosten für die SLAs, die Sie mit Ihren eigenen Kunden haben, für die Behebung von Rufschädigungen oder für die zusätzlichen Supportstunden, die Ihre Teams für verärgerte Kunden aufwenden müssen, entschädigt.
Wie wir beim letzten AWS-Ausfall gesehen haben, entsteht bei einer Beeinträchtigung eines Unternehmens ein Dominoeffekt, der sich zunächst auf die Systeme und die Verfügbarkeit, dann auf die Mitarbeiter und deren Produktivität und schließlich auf die Kunden auswirkt.
Mein Rat ist, für die Zukunft vorzusorgen – und zwar jetzt. Es ist nur eine Frage der Zeit, bis eine weitere Störung auftritt, und Sie wollen nicht ohne jegliche Absicherung dastehen.
Wenn Sie unsicher sind, wie Sie vorgehen sollen, wenden Sie sich an uns. Wir glauben, dass nur gut informierte Unternehmen, vernünftige Entscheidungen treffen können – und die Weitergabe unseres Wissens ist Teil unserer Unternehmens-DNA.