CrowdStrike macht fehlerhafte Testsoftware für weltweiten Ausfall verantwortlich

CrowdStrike hat eine fehlerhafte Testsoftware für ein fehlerhaftes Update verantwortlich gemacht, das weltweit 8,5 Millionen Windows-Rechner zum Absturz brachte, schreibt das Unternehmen in einem Post Incident Review (PIR). „Aufgrund eines Fehlers im Content Validator bestand eines der beiden [Updates] die Validierung, obwohl es problematische Daten enthielt“, erklärte das Unternehmen. Es versprach eine Reihe neuer Maßnahmen, um eine Wiederholung des Problems zu vermeiden.

Der massive BSOD-Ausfall (Blue Screen of Death) betraf zahlreiche Unternehmen weltweit, darunter Fluggesellschaften, Rundfunkanstalten, die Londoner Börse und viele andere. Das Problem zwang Windows-Rechner in eine Boot-Schleife, so dass die Techniker lokalen Zugriff auf die Rechner benötigten, um sie wiederherzustellen (Apple- und Linux-Rechner waren nicht betroffen). Viele Unternehmen, wie Delta Airlines, erholen sich noch immer.

Um DDoS- und andere Angriffe zu verhindern, bietet CrowdStrike ein Tool namens Falcon Sensor an. Es wird mit Inhalten ausgeliefert, die auf Kernel-Ebene arbeiten (so genannter Sensor Content) und einen „Template Type“ verwenden, um zu definieren, wie es sich gegen Bedrohungen verteidigt. Wenn etwas Neues auftaucht, wird „Rapid Response Content“ in Form von „Template Instances“ bereitgestellt.

Ein Template Type für einen neuen Sensor wurde am 5. März 2024 veröffentlicht und funktionierte wie erwartet. Am 19. Juli wurden jedoch zwei neue Template-Instanzen veröffentlicht, von denen eine (nur 40 KB groß) die Validierung bestand, obwohl sie laut CrowdStrike „problematische Daten“ enthielt. „Als sie vom Sensor empfangen und in den Content-Interpreter geladen wurde, führte dies zu einem Out-of-Bounds-Memory-Lesevorgang, der eine Ausnahme auslöste. Diese unerwartete Ausnahme konnte nicht richtig behandelt werden, was zu einem Absturz des Windows-Betriebssystems (BSOD) führte.

Um eine Wiederholung dieses Vorfalls zu vermeiden, hat CrowdStrike mehrere Maßnahmen zugesagt. Zunächst werden die Rapid Response-Inhalte gründlicher getestet, einschließlich lokaler Entwicklertests, Inhaltsaktualisierungs- und Rollback-Tests, Belastungstests, Stabilitätstests und mehr. Außerdem werden Validierungstests hinzugefügt und die Fehlerbehandlung verbessert.

Darüber hinaus wird das Unternehmen eine gestaffelte Bereitstellungsstrategie für Rapid Response-Inhalte einführen, um eine Wiederholung des globalen Ausfalls zu vermeiden. Außerdem wird es den Kunden mehr Kontrolle über die Bereitstellung dieser Inhalte geben und Versionshinweise für Updates bereitstellen.

Einige Analysten und Ingenieure sind jedoch der Meinung, dass das Unternehmen solche Maßnahmen von Anfang an hätte ergreifen sollen. „CrowdStrike muss klar gewesen sein, dass diese Updates von den Treibern interpretiert werden und zu Problemen führen könnten„, schrieb der Ingenieur Florian Roth auf X. “Sie hätten von Anfang an eine gestaffelte Bereitstellungsstrategie für Rapid Response Content einführen sollen.“

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert