Am 6. Mai 2022 fielen die auf Google Cloud Platforms us-central-1 bereitgestellten Dienste aus. Kunden, die diese Dienste in Anspruch nehmen, erlebten hohe Latenzzeiten und Fehler bei mehreren Diensten.
Der Ausfall machte keine landesweiten Schlagzeilen wie die AWS-Ausfälle im Dezember oder der CDN-Ausfall bei Fastly im Juni. Aber für alle diejenigen, die Risiken bewerten, ist die Erkenntnis klar: Man weiß nie, zu welchem Zeitpunkt oder in welchem Ausmaß ein Unternehmen von Ausfallzeiten betroffen sein wird.
Im Folgenden finden Sie einige Möglichkeiten, um sicherzustellen, dass Ihr Unternehmen auf Ausfälle vorbereitet ist.
Raus mit der Sprache: Ausfallzeiten kommen vor
Den Parameterrix-Daten zufolge kam es im Jahr 2021 durchschnittlich alle 10 Tage zu Unterbrechungen bei Cloud-Diensten. Dazu gehörten erhöhte Latenzzeiten, Unterbrechungen und vollständige Ausfälle – alle mit gewissen Auswirkungen auf den Geschäftsbetrieb. Die längste Unterbrechung dauerte 11 Stunden.
Doch welchen Schaden verursachen die Ausfälle für die Unternehmen? Einige Schäden sind leicht zu messen, während andere schwerer zu fassen (und zu berechnen) sind.
Direkte Umsatzeinbußen sind wahrscheinlich die offensichtlichsten Kosten und umfassen entgangene Umsätze, wenn eine Website nicht verfügbar ist, oder entgangene Provisionen, wenn Kunden keine Transaktionen auf einer Plattform durchführen können.
Produktivitätsverluste entstehen, wenn interne Tools ausfallen und Ihre Mitarbeiter nicht mehr in der Lage sind zu arbeiten. Keine E-Mails, keine Programmierung, keine Implementierung, keine Nachverfolgung.
SLAs sind ein weiterer potenzieller Kostenfaktor bei Ausfallzeiten. Ein Ausfall macht es unmöglich, einen Dienst rechtzeitig bereitzustellen, was Ihre Kunden enttäuscht zurücklässt. Dass der Fehler bei einem Cloud-Anbieter und nicht bei Ihnen lag, wird ihnen egal sein.
Die Wiederherstellungskosten sind schwer zu messen. Dazu gehören Ausgaben, um Kunden zurückzugewinnen, Anreize für verpasste Absatzmöglichkeiten zu bieten, eine geschädigte Marke zu reparieren und Ihre PR-Ausgaben zu erhöhen, um den Schaden zu begrenzen.
Nicht verschlimmern, sondern lindern!
Ausfallzeiten sind in jedem Fall kostspielig. Nach Angaben von Information Technology Intelligence Consulting (ITIC) beziffern 40 % der Unternehmen die Kosten für eine Stunde Ausfallzeit auf 1 bis über 5 Millionen Euro – ohne Rechtskosten, Geldstrafen oder Bußgelder. In einer Gartner-Umfrage gaben 98 % der Unternehmen an, dass die Kosten für IT-Ausfallzeiten zwischen 95.000 und über 500.000 Euro pro Stunde liegen. Wie können Sie also die vielen mit Ausfällen verbundenen Risiken mindern?
1. Vorausschauend planen
Systemausfall! Wie sieht Ihr Plan aus? Wird darin jeder potenzielle Ausfall eines Cloud-Dienstes ermittelt und behandelt? Ist er überhaupt umsetzbar wenn die Cloud ausfällt?
Das Softwareunternehmen Atlassian führte der Tech-Welt eindringlich vor Augen, wie wichtig Notfallpläne sind. Im April verloren mehrere hundert Kunden den Zugang zu verschiedenen Cloud-Diensten von Atlassian. Der Ausfall zog sich über Wochen hin, während Atlassian versuchte, eine lange Liste von Problemen in den Griff zu bekommen, mit denen sie nicht gerechnet hatten.
Die Entwickler von Atlassian planten die Deaktivierung einer veralteten Anwendung. Doch eine Kommunikationslücke zwischen zwei Teams führte zur Ausführung eines Skripts, das alle Atlassian Cloud-Produkte samt zugehöriger Daten löschte – und zwar unwiderruflich. Also einfach eine Sicherungskopie der Datenbank für eine schnelle Wiederherstellung aufspielen, nicht wahr?
Atlassian hatte zwar die Sicherungskopien, musste aber schnell feststellen, dass ihr System eine Batch-Wiederherstellung aller Konten nicht verarbeiten konnte. Eine weitere unangenehme Überraschung war die Tatsache, dass es nicht möglich war, mit den betroffenen Kunden zu kommunizieren. Die Kontaktinformationen wurden zusammen mit den Diensten gelöscht und Atlassian war nicht in der Lage, einige seiner Kunden direkt zu erreichen. Das Unternehmen war gezwungen, mit großem Entwicklungsaufwand ein neues System zu entwickeln, das das Kundensupport-System umging und eine Umgebung schuf, in der die Kundendaten wiederhergestellt werden konnten.
Vorausschauende Planung bedeutet, Schäden vorauszusehen und einen zuverlässigen, getesteten Plan zu deren Behebung zu haben. Dabei müssen auch die Kommunikationskanäle berücksichtigt werden, um den Kunden die Gewissheit zu geben, dass man sich um sie kümmert, um ihr Vertrauen und ihre Loyalität zu erhalten.
2. Redundanz schaffen
Redundanz bedeutet, dass Sie Ihre Daten und Rechenleistung (und andere Dienste) an mehr als einem Standort speichern und nutzen. Wenn also ein Standort ausfällt, können Sie immer auf den anderen zurückgreifen.
Es gibt verschiedene Möglichkeiten, Redundanz zu schaffen. In der Cloud haben die meisten Regionen mehrere Verfügbarkeitszonen. Es gibt also ein gewisses Maß an Redundanz, das relativ einfach erreicht werden kann, in der Regel durch Aktivieren eines Kontrollkästchens. Dies ist jedoch mit zusätzlichen Kosten verbunden und wenn die gesamte Region ausfällt, hilft dieser Redundanzgrad nicht weiter.
Einige Unternehmen erhöhen die Redundanz, indem sie Daten und Rechenleistung überregional speichern und nutzen. Andere gehen noch einen Schritt weiter und speichern Daten bei verschiedenen Anbietern. Diese Lösungen verringern das Risiko von Schäden erheblich. Bei der regionsübergreifenden Datenspeicherung wird die Betriebsunterbrechung abgewendet, wenn eine ganze Region ausfällt. Und die anbieterübergreifende Redundanz ist selbst dann betriebssicher, wenn ein ganzer Anbieter ausfällt. Aber das hat seinen Preis.
Redundanz ist teuer. Sie benötigen die doppelte Menge an Speicherplatz und die doppelte Menge an Rechenleistung und zahlen die doppelte Rechnung, wenn nicht sogar mehr.
3. Versicherung abschließen
Die Ausfallversicherung ist eine Neuheit auf dem Markt. Sie unterstellt, dass Ausfallzeiten vorkommen und dass Unternehmen immer einem Risiko ausgesetzt sind – selbst, wenn sie alles in ihrer Macht Stehende tun, um sich dagegen zu schützen. Die Versicherungsverträge sind so konzipiert, dass sie vor Schäden schützen, indem sie den Cashflow bereitstellen, der erforderlich ist, um alle Aspekte der Wiederherstellung schnell anzugehen.
- Schäden werden im Voraus bewertet
Unternehmen wissen selbst am besten, was schief gehen kann und was möglicherweise behoben werden muss. Deshalb legen sie ihren eigenen Preis für jede Stunde Ausfallzeit fest. Wenn die Versicherungspolice ausgelöst wird, muss der Schaden weder nachgewiesen noch belegt werden. - Auslöser sind transparent und klar
Alle Dienste werden fernüberwacht (es muss nichts installiert und kein Code integriert werden.) Ausfälle werden in Echtzeit erkannt. Wenn ein versicherter Dienst ausfällt, tritt die Versicherungspolice automatisch in Kraft.
- Schnelle und unkomplizierte Auszahlungen
Es gibt kein langwieriges Schadenersatzverfahren. Wenn ein versicherter Dienst ausgefallen ist, werden die Unternehmen innerhalb von 15 Werktagen nach Unterzeichnung einer Schadenserklärung entschädigt. Sie können das Geld nach eigenem Ermessen für die Behebung von Schäden ausgeben und müssen keinerlei Bericht erstatten.
Ausfällen entspannter entgegensehen
Risikomanager haben einen ganz klaren Auftrag: Sie sollen alle Risiken ermitteln und absichern, die ein Unternehmen aus dem Gleichgewicht bringen können. Jede Störung oder Unterbrechung kann ein Unternehmen tiefgreifend beeinträchtigen – umso mehr, wenn sie nicht im Voraus erkannt wird.
Ausfälle sind keine Ausnahme, werden jedoch oft übersehen. Häufig sind Ausfallzeiten ein Fehler, der von außerhalb des Unternehmens kommt, was zu dieser Kurzsichtigkeit beitragen kann. Die Abhängigkeit von Drittanbietern nimmt für Unternehmen jedoch zu und Risikomanager müssen verstehen, dass diese Risiken angegangen und kontrolliert werden können und sollten.