Crowdstrike : Was wir aus dem größten Computerausfall der Menschheitsgeschichte lernen sollten
Ein fehlerhaftes Update führte vor einem Jahr zum größten IT-Panne der Geschichte. Erst kürzlich hat Microsoft eine entscheidende Konsequenz gezogen, doch ein zentrales strukturelles Problem bleibt weiter bestehen, analysiert Dennis-Kenji Kipker.
Lernen Sie den Tagesspiegel Background kennen
Sie lesen einen kostenfreien Artikel vom Tagesspiegel Background. Testen Sie jetzt unser werktägliches Entscheider-Briefing und erhalten Sie exklusive und aktuelle Hintergrundinformationen für 30 Tage kostenfrei.
Mit bestehendem Konto anmelden
Am 19. Juli 2024 kam es zu einem Ereignis, das die digitale Welt erschütterte: Innerhalb weniger Stunden fielen weltweit rund 8,5 Millionen Windows-Geräte aus – der bislang größte IT-Ausfall der Menschheitsgeschichte. Betroffen waren Unternehmen aller Branchen, Kritische Infrastrukturen sowie staatliche Einrichtungen: Energieversorgung, Gesundheitswesen, Transport, Telekommunikation und mehr gerieten ins Straucheln. In Flughäfen, Bahnhöfen, Supermärkten oder Kliniken: Überall war der allseits nur allzu bekannte Windows-Bluescreen zu sehen. Eine Bitkom-Umfrage in Zusammenarbeit mit dem BSI ergab später, dass fast die Hälfte der betroffenen Unternehmen ihren Betrieb zeitweise einstellen musste.
Kein Cyberangriff, sondern ein technisches Problem
Nur kurzzeitig ging man von einem Cyberangriff aus, denn schon sehr bald stellte sich heraus, dass es sich bei dem IT-Ausfall nicht um die Folge einer unbefugten Einwirkung von außen, sondern um ein internes technisches Problem, ausgelöst durch ein fehlerhaftes Update der Sicherheitssoftware „Falcon“ des Unternehmens Crowdstrike handelte. Genauer gesagt: Eine Channel-Datei enthielt 21 Eingabefelder statt der erwarteten 20. Der Falcon-Sensor konnte diesen Fehler nicht verarbeiten – ein unzulässiger Speicherzugriff führte zu massenhaften Systemabstürzen. Auch das BSI stufte die daraus resultierende Cybersecurity-Lage als „geschäftskritisch“ ein. Die Verbreitung des Fehlers erfolgte global wellenartig beginnend mit den ersten Zeitzonen und legte nach und nach immer mehr IT-Systeme lahm.
Trotz kurzer Reaktionszeit ein Schaden in Milliardenhöhe
Zwar konnte Crowdstrike rasch reagieren und veröffentlichte einen Workaround zur technischen Behebung des Vorfalls. In Deutschland dauerte es im Schnitt dennoch zwei Tage, bis die betroffenen IT-Systeme wieder funktionsfähig waren, in Teilen auch länger. Am 25. Juli meldeten Microsoft und Crowdstrike, dass über 97 Prozent der betroffenen Geräte wieder funktionierten. Doch aufgrund der globalen Dimension des IT-Vorfalls war der wirtschaftliche Schaden immens: Ausfälle in Lieferketten, unterbrochene Amtshandlungen, gestoppte Flüge, Stillstand von Industrieanlagen und daraus resultierende Folgeschäden. Konkrete Zahlen gibt es aufgrund er Komplexität des Vorfalls zwar nicht, die Schadenssumme dürfte sich aber sicherlich im mehrstelligen Milliardenbereich bewegen. Nicht ohne Grund prüften deshalb einige Unternehmen wie Delta Airlines kurz darauf Klagen gegen Crowdstrike und Microsoft.
Warum auch die digitale Souveränität über die Cybersicherheit entscheidet
Schnell fiel jedoch auch auf, dass Linux- und macOS-Systeme von dem weltweiten Computerausfall weitestgehend verschont blieben, obwohl auch sie durch Crowdstrike-Falcon geschützt sein können. Einer der Gründe dafür dürfte in technischer Hinsicht sicherlich sein, dass die unterschiedlichen Betriebssysteme auch unterschiedliche Strategien im Kernel-Zugriff haben: Während Microsoft Windows Drittanbietern bislang weitreichende Zugriffsrechte erlaubte, verfolgen macOS und Linux restriktivere Zugriffsmodelle. Zwangsläufig kann dies auch eine höhere Resilienz und Fehlertoleranz des Betriebssystems zur Folge haben, denn Fehler in Kernel-naher Software sind geeignet, potenziell gravierende Auswirkungen auf die gesamte Systemstabilität zu haben.
Wohl nicht umsonst hat sich Microsoft deshalb erst vor Kurzem im Juni dazu entschlossen, Antivirenprogramme künftig aus dem Kernel des Betriebssystems zu verbannen – eine Forderung, die auch schon das BSI im letzten Jahr aufstellte. Neben dem technischen Versagen rückte deshalb auch recht schnell ein weiteres strukturelles Problem in den Fokus: Die globale Marktstellung von Microsoft Windows als Betriebssystem. Wären beispielsweise ausschließlich Linux oder macOS betroffen gewesen, hätte es vermutlich keinen globalen IT-Flächenbrand gegeben. Der Chaos Computer Club warnte daher nicht ohne Grund vor einem „Klumpenrisiko“, das durch Softwaremonopole entsteht.
Was bleibt?
Ein Jahr später ist klar: Der Crowdstrike-Vorfall war die Folge einer unglücklichen Verkettung mehrerer Ereignisse zugleich: eines fehlerhaften Channel-Updates und unzureichender Qualitätssicherung bei Crowdstrike sowie übermäßiger Systemprivilegien und eines globalen IT-Monopols bei Microsoft. Die Lehre daraus: Für mehr digitale Resilienz müssen Qualitätssicherung, Architekturentscheidungen und Marktvielfalt künftig Hand in Hand gehen. Nur so lässt sich verhindern, dass ein einziger Fehler in der IT-Infrastruktur erneut ganze Weltregionen lahmlegt.
Dennis-Kenji Kipker ist Professor für IT-Sicherheitsrecht, Mitglied des Vorstandes der Europäischen Akademie für Informationsfreiheit und Datenschutz (EAID) und des Advisory Boards des Anbieters für verschlüsselte Kommunikation NordVPN. Kipker ist zudem wissenschaftlicher Direktor des Cyberintelligence Institute in Frankfurt am Main.
In unserer Reihe Perspektiven kommentieren unsere Kolumnist:innen regelmäßig aktuelle Entwicklungen, Trends und Innovationen im Bereich Cybersicherheit. Zuletzt von Dennis-Kenji Kipker erschienen: Warum die digitale Souveränitätsdebatte zweitklassig ist.
Lernen Sie den Tagesspiegel Background kennen
Sie lesen einen kostenfreien Artikel vom Tagesspiegel Background. Testen Sie jetzt unser werktägliches Entscheider-Briefing und erhalten Sie exklusive und aktuelle Hintergrundinformationen für 30 Tage kostenfrei.
Mit bestehendem Konto anmelden