La giornata di oggi, 19 luglio 2024, verrà ricordata come un “nuovo” venerdì nero del Web (il primo fu il 12 maggio 2017, quando il mondo fu colpito dal ransomware WannaCry) e, proprio come quella prima volta, servirà da lezione per comprendere l’importanza di adottare quelle buone pratiche di sicurezza informatica che, ormai nel 2024, dovrebbero essere diventate la norma ma che, a quanto pare, vengono ancora trascurate: prima su tutte, è che gli aggiornamenti automatici non devono mai essere fatti su sistemi in produzione, ma devono prima essere testati su sistemi di sviluppo.
Secondo gli esperti, l’odierna interruzione globale delle attività informatiche rappresenta una vera e propria crisi: “Quando un fornitore di servizi della catena di fornitura digitale viene colpito, l’intera catena può rompersi, causando interruzioni su larga scala”, ha dichiarato Chris Dimitriadis, Chief Global Strategy Officer di ISACA.
Un incidente di sicurezza informatica che, continua l’esperto, potrebbe essere definito come una vera e propria pandemia digitale: un singolo punto di guasto che ha un impatto su milioni di vite a livello globale.
Indice degli argomenti
Il super crash mondiale di Windows: cosa è successo
Già dalle prime ore dell’alba si sono moltiplicate le segnalazioni di problemi generalizzati sui sistemi Microsoft Windows.
Un malfunzionamento ha messo fuori uso numerosi sistemi critici, inclusi ospedali, banche e aeroporti, con i computer Windows su cui è comparsa la famigerata “schermata blu della morte” (BSoD).
Dopo una prima analisi dell’accaduto, sono emersi dettagli che portano l’attenzione sul software di protezione dei dispositivi (XDR) dell’azienda CrowdStrike.
CrowdStrike è un’azienda americana che ha come focus la protezione dei dispositivi utilizzando una piattaforma centralizzata in cloud. Viene utilizzato sia dalle aziende finali che dai service provider per l’erogazione di servizi di sicurezza avanzata.
La stessa azienda ha aperto una pagina pubblica in cui vengono riportati alcuni dettagli.
Il comunicato stampa conferma che l’impatto è legato solo ai sistemi operativi windows e tranquillizza i propri clienti sul fatto che non si tratta di un cyber attacco.
Il sito ufficiale afferma, inoltre, che i loro clienti sono oltre 29.0000 a livello globale. Questo numero ci può far capire l’entità del problema.
Qualche dettaglio tecnico e di impatto
Da quanto emerso fino ad oggi e confermato dalla stessa azienda, un aggiornamento del modulo di protezione Falcon ha generato un comportamento imprevisto sui sistemi operativi Windows.
Il sintomo è stato purtroppo il più impattante per gli utenti e le aziende utilizzatrici: il blocco totale del sistema e l’impossibilità di far ripartire il sistema operativo.
In parole semplici, il bug del modulo di protezione avanzata (Falcon XDR) non ha generato un semplice malfunzionamento, un rallentamento delle performance, ma un vero blocco e indisponibilità del sistema.
CrowdStrike oltre al comunicato sui canali social e sul portale internet, ha aggiornato i propri clienti tramite un “Tech Alert” sul portale dedicato alla gestione delle problematiche tecniche.
In queste situazioni, l’aspetto più importante è quello di riuscire a identificare la causa scatenante del problema per poi lavorare su un eventuale workaround o un aggiornamento per risolvere in modo definitivo il bug.
A distanza di poche ore dal problema, il tech alert conteneva già le istruzioni tecniche per poter far ripartire i sistemi e tornare alla normale operatività.
Porrei l’attenzione su un paio di aspetti:
- Gli steps descritti nella procedura richiedono una buona competenza tecnica e credenziali di accesso amministrative locali, normalmente non utilizzate nella normale operatività dei dispositivi e sistemi.
- Per i dispositivi fisici (computer utilizzati dagli utenti, dispositivi presenti nelle sedi remote) tale procedura non può essere eseguita remotamente, ma richiede la presenza in sede di un tecnico esperto.
Per le considerazioni appena descritte, i tempi necessari per tornare alla normale operatività da parte delle aziende non sono assolutamente da sottovalutare e probabilmente avranno strascichi per diversi giorni se non settimane.
Riflessioni sull’accaduto
La causa del problema, da quanto condiviso dai vari interlocutori fino ad oggi, non sembra essere legata a Microsoft, ma a CrowdStrike. L’impatto è comunque legato ai soli sistemi operativi Windows.
Il processo di rilascio di un aggiornamento segue normalmente diversi steps operativi per correggere eventuali problemi e ridurre possibili impatti. Le best practice in questo ambito richiedono ad esempio:
- Verifica del rilascio in ambiente di test.
- Passaggio in produzione in un ambiente controllato.
- Piano di rilascio sui vari clienti (suddivisi in tenant) in modo graduale e schedulato.
- Monitoraggio continuativo di tutti i task del processo per poter sospendere il flusso a fronte di evidenze di problemi.
Quanto accaduto nella giornata di oggi, 19 luglio 2024, sembra aver bypassato un normale processo di rilascio e approvazione. Non conosciamo ancora le motivazioni che hanno spinto Crowdstrike a eseguire l’attività senza un processo di rilascio progressivo e programmato per ridurre il rischio di blocchi o incidenti.
Possiamo trovarci di fronte a un errore umano o forse a un rilascio in emergenza per un problema più esteso o una criticità sul fronte della cyber security.
Il processo di change management contiene step di approvazione e analisi dei rischi definiti. Il processo di emergency change riduce le valutazioni e le analisi e viene applicato solo in caso di emergenza, ma con la possibilità di generare un ulteriore impatto lato business.
Considerazioni finali
Questo caso ci deve far riflettere su diversi aspetti.
- La resilienza operativa non è più un tema legato alle big tech. Per resilienza operativa si intende la capacità di un’azienda di continuare a operare anche a fronte di un incidente, in particolare sul modo cyber. Per semplificare le aziende devono:
- Definire scenari di continuità operativa anche a fronte di eventi con impatto alto o esteso.Far evolvere i piani di Business Continuity e Disaster recovery in quanto la complessità tecnologica, l’aumento degli attacchi cyber e l’utilizzo di tecnologie sempre più avanzate aumenta il rischio di possibili malfunzionamenti.
- Per poter continuare a competere sul mercato i temi di resilienza vanno affrontati con maturità e struttura interna ed esterna.
- La gestione della supply chain si pone come punto chiave per ottenere una strategia di difesa e resilienza efficace. I fornitori devono essere:
- Valutati in fase di scelta iniziale.Mappati definendo i vari livelli di criticità.
- Monitorati durante gli step di collaborazione con particolare focus sulla loro criticità nelle varie funzioni di business.
Nel caso specifico sono presenti due chiavi di lettura:
- Un nostro fornitore potrebbe essere stato impattato dall’incidente sopra descritto. Come la nostra azienda può continuare a operare anche a fronte dell’indisponibilità dei loro servizi/forniture?
- Un malfunzionamento di un software che viene fornito da una terza parte può paralizzare la nostra azienda. Abbiamo un piano ed interlocutori interi ed esterni capaci di far ripartire il nostro business?
Le normative NIS 2 e DORA sottolineano l’importanza degli aspetti sopra descritti: la comunità europea si pone l’obiettivo di ottenere un sistema di difesa centralizzato.
Da un punto di vista tecnologico è indispensabile dotarsi come azienda di un sistema di protezione avanzata dalle minacce (XDR) in quanto gli attacchi cyber sono in continua e inesorabile crescita.
Altrettanto importante è valutare un eventuale impatto di un malfunzionamento centralizzato dei sistemi di difesa.