CrowdStrike accuse un logiciel de test défectueux d'être à l'origine d'une panne mondiale

CrowdStrike a mis en cause un logiciel de test défectueux pour une mise à jour défectueuse qui a fait planter 8,5 millions d'ordinateurs Windows dans le monde, écrit l'entreprise dans un Post Incident Review (PIR). "En raison d'une erreur dans le Content Validator, l'une des deux [mises à jour] a passé la validation alors qu'elle contenait des données problématiques", a expliqué l'entreprise. Elle a promis une série de nouvelles mesures pour éviter que le problème ne se reproduise.

La panne massive de BSOD (Blue Screen of Death) a touché de nombreuses entreprises dans le monde entier, notamment des compagnies aériennes, des diffuseurs, la Bourse de Londres et bien d'autres. Le problème a forcé les ordinateurs Windows à entrer dans une boucle de démarrage, de sorte que les techniciens ont eu besoin d'un accès local aux ordinateurs pour les restaurer (les ordinateurs Apple et Linux n'ont pas été touchés). De nombreuses entreprises, comme Delta Airlines, continuent de se rétablir.

Pour prévenir les attaques DDoS et autres, CrowdStrike propose un outil appelé Falcon Sensor. Il est livré avec un contenu qui fonctionne au niveau du noyau (appelé "Sensor Content") et utilise un "Template Type" pour définir comment il se défend contre les menaces. Si quelque chose de nouveau apparaît, un "contenu de réponse rapide" est fourni sous la forme d'"instances de modèle".

Un type de modèle pour un nouveau capteur a été publié le 5 mars 2024 et a fonctionné comme prévu. Cependant, le 19 juillet, deux nouvelles instances de modèles ont été publiées, dont l'une (d'une taille de 40 Ko seulement) a passé la validation, bien qu'elle contienne des "données problématiques" selon CrowdStrike. "Lorsqu'elle a été reçue par le capteur et chargée dans l'interpréteur de contenu, cela a entraîné une lecture hors limite de la mémoire, qui a déclenché une exception. Cette exception inattendue n'a pas pu être traitée correctement, ce qui a entraîné un blocage du système d'exploitation Windows (BSOD).

Afin d'éviter que cet incident ne se reproduise, CrowdStrike s'est engagé à prendre plusieurs mesures. Tout d'abord, le contenu de la réponse rapide sera testé de manière plus approfondie, y compris les tests de développement local, les tests de mise à jour du contenu et de retour en arrière, les tests de charge, les tests de stabilité et plus encore. Des tests de validation seront également ajoutés et la gestion des erreurs sera améliorée.

En outre, l'entreprise mettra en place une stratégie de déploiement échelonné pour les contenus à réponse rapide afin d'éviter que la panne globale ne se reproduise. Elle donnera également aux clients un plus grand contrôle sur la mise à disposition de ce contenu et fournira des notes de version pour les mises à jour.

Certains analystes et ingénieurs estiment toutefois que l'entreprise aurait dû prendre de telles mesures dès le départ. "CrowdStrike a dû se rendre compte que ces mises à jour seraient interprétées par les pilotes et pourraient entraîner des problèmes", a écrit l'ingénieur Florian Roth sur X. "Ils auraient dû mettre en place dès le départ une stratégie de déploiement échelonnée pour le contenu à réponse rapide".

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *