Il 19 luglio 2024, Microsoft ha subito un blackout IT di proporzioni storiche, che ha portato a un’interruzione globale dei servizi IT. Questo evento ha lasciato senza risposta serie domande sulla gestione dei rischi e sulla sicurezza dei sistemi IT da parte di Microsoft e dei suoi clienti.
Cause del blackout
Il blackout è stato causato da un aggiornamento di software del cliente di Microsoft, la società di cybersecurity CrowdStrike. L’aggiornamento, noto come “Falcon Sensor”, è stato progettato per proteggere i sistemi Windows da attacchi maliziosi. Tuttavia, il codice aggiornato ha causato un problema che ha portato a un’interruzione dei servizi IT su larga scala.
Impatto economico
L’impatto economico del blackout è stato significativo, ma difficile da quantificare. La maggior parte delle macchine desktop nel mondo utilizzano software Windows, che è stato gravemente colpito dall’aggiornamento difettoso. Se l’aggiornamento avesse colpito anche sistemi Mac e Linux, l’impatto sarebbe stato catastrofico.
Domande sulle procedure di Microsoft
Microsoft ha serie domande da rispondere riguardo alle procedure di controllo e alla gestione dei rischi. Quali controlli esegue Microsoft sui fornitori terzi e sugli aggiornamenti individuali prima della loro distribuzione su un sistema così dominante a livello globale? Queste domande sono cruciali per garantire la sicurezza e la resilienza dei sistemi IT.
Lezioni apprese
L’evento ha dimostrato l’importanza della resilienza nei sistemi IT. L’over-reliance su un sistema unico lascia l’infrastruttura critica esposta a un punto di fallimento. Gli ingegneri hanno sempre sottolineato l’importanza di avere sistemi di backup per garantire la continuità operativa.
Suggerimenti e Best Practice
- Diversificazione dei sistemi: Utilizzare più sistemi operativi e piattaforme per ridurre la dipendenza da un solo sistema.
- Controllo dei rischi: Eseguire controlli rigorosi sui fornitori terzi e sugli aggiornamenti prima della loro distribuzione.
- Resilienza: Implementare sistemi di backup e di recupero per garantire la continuità operativa.
- Monitoraggio Continuo: Monitorare costantemente i sistemi per rilevare problemi e risolverli in tempo reale.
- Formazione e Consapevolezza: Formare gli operatori IT sulla sicurezza e sulla gestione dei rischi per ridurre l’esposizione a vulnerabilità.
Risorse utili
- Microsoft Azure: Utilizzare servizi cloud come Microsoft Azure per migliorare la resilienza e la scalabilità dei sistemi IT.
- CrowdStrike: Utilizzare strumenti di sicurezza come CrowdStrike per proteggere i sistemi IT da attacchi maliziosi.
- ISO 27001: Adottare standard di sicurezza come ISO 27001 per garantire la sicurezza e la protezione dei dati.
Il blackout IT di Microsoft è stato un evento senza precedenti che ha messo in evidenza la necessità di un approccio più sicuro e resiliente nei sistemi IT. Microsoft e i suoi clienti devono affrontare serie domande sulla gestione dei rischi e sulla sicurezza. Gli operatori IT devono essere consapevoli dell’importanza della diversificazione e della resilienza nei loro sistemi.





