La pandemia da Covid-19 ha messo a dura prova la vita di miliardi di persone: prima l’emergenza sanitaria con la perdita di vite umane, poi l’economia con la crisi di imprese, attività commerciali e lavoratori.
In questa drammatica situazione, le organizzazioni si sono trovate di fronte a situazioni impreviste di interruzione delle proprie attività: indisponibilità di personale presso uffici e stabilimenti e interruzione delle forniture, solo per citarne alcune.
Alcune aziende hanno reagito meglio di altre, perché erano organizzate meglio, perché hanno potuto sfruttare soluzioni a cui avevano già pensato in passato per rispondere ad esigenze diverse; altre hanno reagito meno bene, in alcuni casi in modo drammatico, prendendo decisioni affrettate e sbagliate, senza avere il tempo di valutarne tutte le conseguenze.
Gli effetti sono l’interruzione dei servizi o il peggioramento della qualità sotto soglie non accettabili dall’organizzazione stessa.
Indice degli argomenti
Covid-19 e continuità operativa: soluzioni adeguate
In situazioni come queste, come in tutte le situazioni di crisi, la difficoltà maggiore è quella di trovare soluzioni adeguate a problemi non previsti, in tempi rapidi. Più si è impreparati, maggiore è la difficoltà nella scelta della soluzione migliore.
È opportuno pensare al peggio e prepararsi per tempo per non farsi trovare impreparati. Non si tratta di concetti o approcci nuovi o innovativi: in molti settori di business sono abitudini diventate prassi standardizzate (penso all’addestramento dei piloti di aerei, all’organizzazione di presidi di emergenza ecc.).
Tra i numerosi approcci esistenti per la gestione delle situazioni di crisi finalizzate alla continuità operativa, c’è il modello ISO, strutturato secondo il framework del sistema di gestione e normato principalmente dallo standard ISO 22301:2019 (Rif. 1). ISO ha anche prodotto una linea guida (ISO 22313:2020, Rif. 2) di applicazione della norma.
Ecco, quindi, una guida introduttiva al processo di gestione, ai principali elementi e alcuni riferimenti alle norme collegate, elencate nella sezione “Riferimenti”.
Covid-19 e continuità operativa: il Business Continuity Management System (BCMS)
Il sistema di gestione per la continuità operativa descritto dalla norma ISO 22301 e revisionata nel 2019 è strutturato sulla base del ben noto framework ISO High Level Structure (HLS).
Il contesto, la leadership con i suoi ruoli e responsabilità, la pianificazione, il supporto, la valutazione delle prestazioni del sistema e il suo miglioramento continuo sono comuni ed integrate con gli altri sistemi di gestione.
L’articolo si soffermerà esclusivamente sugli aspetti salienti della continuità operativa, relativi alle attività operative (il famoso capitolo 8 per gli addetti ai lavori dei sistemi di gestione). Per quanto riguarda la continuità operativa, le attività operative si strutturano principalmente sui seguenti processi:
- valutazione di impatto sul business e valutazione del rischio (Business Impact Analysis, BIA, e Risk Assessment);
- definizione delle strategie e delle soluzioni di continuità operativa (Business Continuity Strategies);
- definizione di piani e procedure per la continuità operativa (Business Continuity Plan, BCP);
- programmi di esercizio della continuità operativa.
Ciascuna di queste fasi è descritta nel seguito.
Valutazione di impatto sul business e valutazione del rischio
La valutazione di impatto sul business rappresenta il primo step e permette all’organizzazione di definire le priorità del business in merito ai servizi da ripristinare (servizi primari) in caso di interruzione.
L’organizzazione determina quali siano le applicazioni critiche su cui concentrare l’attenzione, sulla base degli impatti che un’interruzione potrebbe causare: classici criteri di rischio come gli aspetti finanziari, reputazionali, operativi, conformità a leggi, regolamenti o contratti.
Per ciascuno dei servizi primari l’organizzazione determina i requisiti di continuità operativa in termini di:
- periodo di interruzione tollerabile massimo (Maximum Tolerable Period of Disruption, MTPD);
- livello minimo di servizio accettabile (Minimum Business Continuity Objective, MBCO).
Questi valori sono determinati dalla direzione dell’organizzazione: oltre tali limiti l’interruzione e il livello di servizio non sono più accettabili (danno reputazionale, perdita finanziaria, conformità a norme, obblighi contrattuali ecc.).
Oltre a identificare quali siano i servizi primari critici, l’analisi di impatto deve identificare quali siano le attività. le risorse, gli asset e i servizi di supporto necessari ad erogare tali servizi (servizi secondari): infrastrutture IT, persone, siti, competenze, informazioni, servizi esternalizzati e via dicendo.
Sono infatti i rischi associati ai servizi secondari che determinano la continuità e i livelli di qualità dei servizi primari. A questo punto si innesta l’analisi del rischio.
L’organizzazione valuta i rischi a cui i servizi secondari sono soggetti, al fine di poter identificare le opportune azioni di mitigazione e, più in generale, di trattamento. Il rischio può essere valutato sulla base dei classici criteri di impatto e probabilità di accadimento, ma nell’analisi devono essere considerati due ulteriori parametri specifici:
- tempo massimo per il ripristino dell’attività (Recovery Time Objective, RTO);
- tempo massimo per il quale l’informazione usata da un’attività o da un processo può essere utilizzata per ripristinare correttamente l’attività o il processo stesso (Recovery Point Objective, RPO).
Facciamo un esempio per chiarire meglio il concetto. Supponiamo di avere un servizio web per l’accesso ai dati da parte di utenti:
- il parametro RTO rappresenta il tempo massimo di interruzione del servizio; se tale valore è pari a 4 ore, vuol dire che le componenti del servizio web (server, componenti software, etc.) devono essere progettate per garantire che in tutte le situazioni di crisi considerate (mancanza di connettività, DDoS, guasto hardware, etc.) il servizio possa essere ripristinato entro le 4 ore;
- il parametro RPO rappresenta il tempo massimo tra la creazione di un dato (i dati utente gestite dal servizio web) e la sua messa in sicurezza; se tale valore è pari a 8 ore, vuol dire che dovrò configurare una politica di backup su un repository esterno al servizio web con frequenza di 8 ore o inferiore.
La definizione di questi valori permette di identificare le azioni da intraprendere più adeguate.
Maggiori dettagli sulla valutazione di impatto sono disponibili nella ISO 22317:2015 (Rif. 3).
Strategie e soluzioni di continuità operativa
Una volta definiti i requisiti di continuità operativa, a valle delle valutazioni di impatto e dell’analisi del rischio, l’organizzazione determina le strategie e le soluzioni per centrare gli obiettivi di business, sulla base di un processo che si snoda in tre fasi:
- identificazione e selezione delle possibili strategie e soluzioni applicabili;
- identificazione dei requisiti in termini di risorse;
- implementazione delle misure.
Identificazione e selezione delle possibili strategie e soluzioni applicabili
Le soluzioni di continuità operativa possono essere basate su diversi meccanismi, tra i quali:
- protezione del servizio, attraverso la riduzione dei rischi associati; l’esternalizzazione rappresenta uno di questi casi (quando si migra verso il cloud, per esempio, si sta adottando una strategia di continuità operativa);
- maggiore resilienza, attraverso l’implementazione di misure di configurazione protetta, come ridondanza, alta affidabilità e riallocazione di risorse. (quando si predispone lo smart-working, remotizzando la presenza del personale, come avvenuto durante l’emergenza Covid-19, si sta adottando una strategia di continuità operativa);
- mitigare gli impatti, attraverso la stipula di una polizza (anche in questo caso si sta adottando una strategia di continuità operativa, volta a garantire l’obiettivo di proteggere le perdite finanziarie).
Molte delle soluzioni descritte oggi sono applicate sulla base di sensazioni, punti di vista e sensibilità di alcune funzioni dell’organizzazione, senza una visione di insieme. L’approccio, di per sé, potrebbe non essere sbagliato, ma c’è il rischio di consumare risorse laddove non ci sono criticità, o peggio, lasciando scoperte alcune situazioni di rischio.
Nella selezione delle strategie di continuità operativa, le soluzioni adottate devono soddisfare i requisiti di continuità operativa (RTO, RPO, etc.), garantendo beneficio a costi ragionevoli e gestibili.
Identificazione dei requisiti in termini di risorse
Un aspetto fondamentale, forse uno degli aspetti chiave, è legato alla determinazione dei requisiti sulle risorse necessarie per l’implementazione delle soluzioni. Per brevità si citano i principali ambiti di verifica di intervento:
- risorse Umane (quali competenze e conoscenze sono necessarie, chi le ha, ruoli e responsabilità per gestire situazioni di crisi ecc.);
- dati e informazioni (quali sono le informazioni necessarie, dove sono e dove trovarle quando serviranno…);
- sedi lavorative e utilities (classico caso di individuazione dei siti di Disaster Recovery[1]);
- dispositivi (il personale che lavorerà da casa ha gli asset necessari come PC, telefono, connessione ecc.);
- sistemi IT (backup, ridondanze, alte affidabilità ecc.);
- trasporti (se il personale si deve muovere durante la crisi, è necessario assicurarsi che i servizi di trasporto siano garantiti; si pensi alla creazione delle zone rosse nell’emergenza Covid-19);
- finanze (sono state previste e accantonate risorse finanziare adeguate in caso servissero…);
- fornitori (pensate alle organizzazioni che hanno reparti di produzione e agli effetti sui servizi critici, come mascherine, respiratori, guanti, igienizzante negli ospedali…).
Maggiori dettagli sulla definizione di strategie e soluzioni per la continuità operativa sono disponibili nella ISO 22331:2019 (Rif. 4). ISO ha anche prodotto alcune norme specifiche che entrano nel merito della gestione di specifiche risorse (strategie per la gestione del personale, strategie per la gestione dei fornitori ecc.).
Definizione di piani e procedure per la continuità operativa
Una volta definiti i servizi critici, definite e implementate le strategie di continuità (avendone verificato e soddisfatto i requisiti di risorse), il processo si appresta a definire come rilevare una situazione di crisi, dichiararla e, soprattutto, gestirla. Tre le attività chiave, sono da includere:
- il controllo e la gestione della risposta alla situazione di crisi;
- l’adeguata comunicazione con le parti interessate;
- l’applicazione delle soluzioni di continuità operativa finalizzate a garantire la continuità del servizio e ripristinando la condizione di normalità.
Per controllare e gestire la risposta alla crisi, in funzione della gravità, potrebbe essere necessario definire una struttura o un team di persone apposito, capace di rilevare l’incidente, quantificarlo, verificarne estensioni ed impatto, valutare la necessità di dichiarare lo stato di emergenza e attivarne i piani (i famosi CERT, Computer Emergency Response Team, e CSIRT, Computer Emergency Incident Response Team, ecc.).
Un secondo aspetto da non sottovalutare è legato alla corretta ed efficace comunicazione verso le parti interessate, interne od esterne. Ancora una volta, la comunicazione è efficace quando il “cosa comunicare”, “a chi comunicare”, “come comunicare”, sono temi già analizzati, discussi, definiti ed autorizzati.
Infine, un ruolo fondamentale è ricoperto dai piani di continuità: questi processi, documentati, descrivono chi deve fare cosa nelle situazioni di emergenza. Queste procedure sono scritte sulla base del contesto aziendale, sulle prassi in uso e, per essere efficaci, sono continuamente riviste e aggiornate sulla base di simulazioni o aspetti di miglioramento emersi durante la loro applicazione. Senza entrare nel merito, per brevità, è opportuno ricordare che le procedure devono essere note e disponibili a tutto il personale, ma in particolare alle persone che sono coinvolte nella gestione della specifica crisi a cui la procedura si applica.
Programmi di esercizio della continuità operativa
Tutti i processi descritti precedentemente perdono la loro efficacia e possono essere considerate inutili fino a quando non vengano provate e verificate.
Non ci si addentrerà in questo articolo sulle modalità di test dei processi di continuità operativa: è sufficiente sottolineare che ne esistono diverse dalle discussioni a tavolino alle simulazioni parziali o complete, vere e proprie.
Conclusioni
A conclusione dell’articolo, al di là dei processi previsti dalla norma ISO 22301, vorrei sottolineare ancora una volta, il messaggio più importante: prepararsi per tempo, per non farsi trovare impreparati. Questo approccio rappresenta l’unico modo per poter gestire situazione di crisi, cerando di limitare i danni in termini di reputazione, perdita economica e, come purtroppo la recente storia ci insegna, anche di vite umane.
La scelta del modello, che sia un sistema di gestione per la continuità operativa secondo i paradigmi ISO o un altro modello tra i diversi esistenti, non rappresenta una scelta obbligata, ma un’opportunità. La scelta di un modello ISO comporta alcuni vantaggi, tra cui mi limito ad elencare i seguenti:
- integrabilità con altri sistemi di gestione aziendale (qualità, sicurezza delle informazioni, sicurezza e salute sul lavoro, ambiente ecc.);
- uso di processi e metodologie standard, rodate, ottimizzate e sempre aggiornate, riconosciute internazionalmente;
- misurabilità della maturità del proprio sistema rispetto a un modello standard;
- possibilità di far certificare il sistema da parte di un ente esterno
PRINCIPALI RIFERIMENTI
- UNI EN ISO 22301:2019 – Sicurezza e Resilienza – Sistemi di Gestione per la continuità operativa – Requisiti
- UNI EN ISO 22313:2020 – Sicurezza e Resilienza – Sistemi di Gestione per la continuità operativa – Guida all’utilizzo della ISO 22301
- UNI ISO/TS 22317:2015 – Societal Security – Business Continuity Management Systems – Guidelines for Business Impact Analysis (BIA)
- UNI ISO/TS 22331:2019 – Sicurezza e Resilienza – Sistemi di Gestione per la continuità operativa – Linee Guida per le strategie di continuità operativa
NOTE
- Erroneamente, molti associano il Disaster Recovery alla Continuità Operativa; come si evince da questo articolo il Disaster Recovery è “solo” una componente di un sistema di continuità operativa. ↑