CrowdStrike incolpa un software di test difettoso per un'interruzione globale

CrowdStrike ha incolpato un software di test difettoso per un aggiornamento che ha mandato in crash 8,5 milioni di computer Windows in tutto il mondo, ha scritto la società in una Post Incident Review (PIR). "A causa di un errore nel Content Validator, uno dei due [aggiornamenti] ha superato la convalida nonostante contenesse dati problematici", ha spiegato la società. L'azienda ha promesso una serie di nuove misure per evitare che il problema si ripeta.

Il massiccio guasto BSOD (Blue Screen of Death) ha colpito numerose organizzazioni in tutto il mondo, tra cui compagnie aeree, emittenti, la Borsa di Londra e molte altre. Il problema ha costretto i computer Windows a entrare in un loop di avvio, per cui i tecnici hanno avuto bisogno di un accesso locale ai computer per ripristinarli (i computer Apple e Linux non sono stati interessati). Molte aziende, come Delta Airlines, si stanno ancora riprendendo.

Per prevenire attacchi DDoS e di altro tipo, CrowdStrike offre uno strumento chiamato Falcon Sensor. È dotato di contenuti che funzionano a livello di kernel (chiamati contenuti del sensore) e utilizza un tipo di modello per definire il modo in cui si difende dalle minacce. Quando emerge qualcosa di nuovo, il "Contenuto di risposta rapida" viene fornito sotto forma di "Istanze modello".

Un tipo di modello per un nuovo sensore è stato rilasciato il 5 marzo 2024 e ha funzionato come previsto. Tuttavia, il 19 luglio sono state rilasciate due nuove istanze di modello, una delle quali (di soli 40 KB) ha superato la convalida anche se conteneva "dati problematici", secondo CrowdStrike. "Quando è stato ricevuto dal sensore e caricato nell'interprete dei contenuti, ha causato una lettura della memoria fuori dai limiti che ha generato un'eccezione. Questa eccezione inaspettata non poteva essere gestita correttamente, causando un crash del sistema operativo Windows (BSOD).

Per evitare il ripetersi di questo incidente, CrowdStrike si è impegnata ad adottare diverse misure. In primo luogo, i contenuti di Rapid Response saranno testati in modo più approfondito, compresi i test degli sviluppatori locali, i test di aggiornamento e rollback dei contenuti, i test di carico, i test di stabilità e altro ancora. Verranno inoltre aggiunti test di validazione e migliorata la gestione degli errori.

Inoltre, l'azienda introdurrà una strategia di distribuzione scaglionata per i contenuti di Rapid Response, per evitare il ripetersi dell'interruzione globale. Inoltre, darà ai clienti un maggiore controllo sulla distribuzione di questi contenuti e fornirà note di rilascio per gli aggiornamenti.

Tuttavia, alcuni analisti e ingegneri ritengono che l'azienda avrebbe dovuto adottare tali misure fin dall'inizio. "CrowdStrike deve aver capito che questi aggiornamenti sarebbero stati interpretati dai driver e avrebbero potuto causare problemi", ha scritto l'ingegnere Florian Roth su X. "Avrebbero dovuto introdurre una strategia di distribuzione scaglionata per i contenuti di risposta rapida fin dall'inizio".

Lascia una risposta

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *