L’attuale situazione di emergenza pandemica ha dimostrato ancora una volta quanto siano fondamentali una efficace analisi dei rischi e una valida BIA (Business Impact Analysis) al fine di garantire la necessaria continuità operativa.
Indice degli argomenti
Analisi dei rischi e BIA: gli impianti normativi
La Circolare n. 285 del 17 dicembre 2013 di Banca d’Italia, alla quale devono sottostare le banche che operano in Italia si occupa, fra gli altri, della continuità operativa.
Lo fa prendendo in considerazione diversi scenari di crisi: “Il piano di continuità operativa prende in considerazione diversi scenari di crisi basati almeno sui seguenti fattori di rischio, conseguenti a eventi naturali o attività umana, inclusi danneggiamenti gravi da parte di dipendenti:
- distruzione o inaccessibilità di strutture nelle quali sono allocate unità operative o apparecchiature critiche;
- indisponibilità di sistemi informativi critici, anche con riferimento ai sistemi funzionali alla prestazione dei servizi di pagamento;
- indisponibilità di personale essenziale per il funzionamento dei processi aziendali;
- interruzione del funzionamento delle infrastrutture (tra cui energia elettrica, reti di telecomunicazione, reti interbancarie, mercati finanziari);
- alterazione o perdita di dati e documenti critici”.
Altre normative, come quella relativa alla PA[1] (anche se nel caso specifico relativamente al solo sistema informatico) ne elencano altri, in linea di massima quasi sovrapponibili:
- errori/malfunzionamenti dei processi (il processo organizzativo che usa il servizio ICT non ha funzionato come avrebbe dovuto per errori materiali, errori nell’applicazione di norme ovvero per il verificarsi di circostanze non adeguatamente previste dalle stesse);
- malfunzionamento dei sistemi, delle applicazioni e delle infrastrutture;
- attacchi o eventi naturali di tipo accidentale;
- disastri.
In un altro paragrafo, dedicato alla valutazione di impatto, quella che per gli addetti ai lavori è la BIA; Banca d’Italia propone una serie di parametri che devono essere presi in considerazione in tale valutazione: “L’analisi di impatto tiene conto dei parametri caratteristici della struttura organizzativa e dell’operatività aziendale, tra cui:
- le specificità – in termini di probabilità di catastrofe – connesse con la localizzazione dei siti rilevanti (ad es., sismicità dell’area, dissesto idrogeologico del territorio, vicinanza ad insediamenti industriali pericolosi, prossimità ad aeroporti o a istituzioni con alto valore simbolico);
- i profili di concentrazione geografica (ad es., presenza di una pluralità di operatori nei centri storici di grandi città);
- la complessità dell’attività tipica o prevalente e il grado di automazione raggiunto;
- le dimensioni aziendali e l’articolazione territoriale dell’attività;
- il livello di esternalizzazione di funzioni rilevanti (ad es., outsourcing del sistema informativo o del back-office);
- l’assetto organizzativo in termini di accentramento o decentramento di processi critici;
- i vincoli derivanti da interdipendenze, anche tra e con fornitori, clienti, altri operatori.
L’analisi di impatto prende in considerazione, oltre ai rischi operativi, anche gli altri rischi (ad es., di mercato e di liquidità)”.
L’analisi del testo evidenzia però che l’approccio della normativa è un po’ anomalo.
L’intento appare chiaro, ma il testo nella sua esposizione sovrappone in modo inopportuno l’impatto con il rischio, senza chiarire esattamente quale sia l’intento di tale sovrapposizione.
Chiunque si occupa di sicurezza sa che il rischio è una funzione di impatto e probabilità, ma che l’impatto non è condizionato dalla probabilità.
Gli elementi qui sopra elencati determinano la probabilità che un evento avverso abbia luogo, non le sue conseguenze e servono a definire, fra gli altri, quali siano le misure da mettere in atto per limitare la frequenza e/o l’impatto dell’evento stesso mediante l’uso di adeguate contromisure.
Analisi dei rischi e BIA: soluzioni di continuità operativa
È da questo punto di vista che per la definizione di soluzioni di continuità operativa è necessario effettuare sia un’analisi dei rischi (serve a definire gli scenari di rischio più probabili e le misure di prevenzione), sia l’analisi di impatto (BIA).
È evidente che l’analisi dei rischi deve essere finalizzata alla valutazione dei rischi per la continuità operativa e non può essere una generica analisi finalizzata, ad esempio, a considerare la sicurezza delle informazioni.
La BIA, rispetto alla valutazione di impatto quale parte dell’analisi dei rischi, non si limita a considerare le perdite ipotetiche derivanti da un evento avverso, ma segue lo sviluppo di queste nel tempo.
In altre parole, si valutano le conseguenze del blocco di un processo rispetto a diversi parametri (perdite finanziarie, reputazione, conseguenze legali e di compliance…) ad esempio dopo 0, 2, 4, 8… ore.
Anche la definizione delle possibili soluzioni è condizionata dal tempo.
Di fatto, l’indisponibilità di un edificio comporta (quasi sempre) l’impossibilità di utilizzare le risorse in esso contenute: quindi un’interruzione dei processi che, per continuare, devono essere svolti da qualche altra parte.
Come?
O spostando le risorse in un luogo attrezzato per poter sostituire il sito indisponibile (soluzione questa spesso consigliata nei vari manuali sulla BC, ma molto costosa, poco pratica e poco affidabile salvo l’esecuzione di continui allineamenti e test per verificare l’effettiva capacità di operare adeguatamente sul sito secondario…), ovvero attivando delle risorse già presenti in un sito alternativo (ad esempio personale già istruito e attrezzato per svolgere i processi che erano erogati presso il sito indisponibile in aggiunta a quelli che normalmente svolge, anche se con in livello di prestazione inferiore).
Fra gli altri, il secondo tipo di soluzioni è in ogni caso necessaria allorché lo scenario di crisi non riguardi l’indisponibilità di un edificio, ma delle persone che svolgono normalmente un processo.
È evidente che il caso descritto e analogamente altri scenari di indisponibilità sono sufficientemente indipendenti dagli eventi di cui sono conseguenza.
Un edificio può essere indisponibile per un terremoto, un incendio, un allarme bomba, una contaminazione, l’impossibilità di raggiungerlo (come nel caso della pandemia), la mancanza di un servizio essenziale.
L’impatto sui processi non cambia.
Se un processo non viene eseguito, l’impatto per l’azienda è essenzialmente una funzione del tempo trascorso dalla sua interruzione, non la causa dell’evento stesso.
Analogamente, il tipo di soluzione scelta non sarà nel breve periodo legato alla causa scatenante.
Possibili scenari operativi
È quindi sufficiente predisporre un numero limitato di piani, relativi in realtà a pochi scenari operativi:
- mancanza di un edificio (e delle relative risorse) nel quale si svolge un determinato processo;
- mancanza del sistema informativo (in questo caso però il piano alternativo è molto più condizionato dalla causa della indisponibilità);
- mancanza del personale che svolge un determinato processo;
- mancanza di infrastrutture;
e via dicendo, come prescritto dalla normativa di Banca d’Italia.
Tuttavia, questa semplificazione, che nella realtà funziona perfettamente, ha un grosso limite, come ha evidenziato anche la recente pandemia.
Le soluzioni ed i piani di BC sono per lo più tarati su scenari di durata molto breve.
I tempi di ripristino possono anche essere a tempo 0, o in funzione della criticità del processo di 2, 4, 8 ore…, con i limiti evidenziati nel precedente articolo Resilienza, contro gli attacchi informatici: linee guida per le aziende[2] in merito alla reale portata dei parametri RTO e RPO così come comunemente utilizzati.
Molto diverso è il caso in cui sia necessario predisporre dei piani sul medio e lungo periodo.
In realtà è in tale senso che si esprime sia la Circolare 285 pur in modo molto velato: “I siti alternativi possono dover essere utilizzati, in caso di necessità, anche per periodi prolungati”, sia EBA, nelle Guidelines on ICT and security risk management – EBA/GL/2019/04, (anche se limitatamente al sito di DR, Disaster Recovery).
In questi casi è viceversa fondamentale individuare quella che è la causa scatenante dello scenario avverso.
Se, infatti, l’indisponibilità di un edificio è legata ad un allarme bomba questo potrebbe esaurirsi in qualche ora; se è legato ad un terremoto tale indisponibilità non solo può essere prolungata, ma saranno coinvolti anche tutta un’altra serie di infrastrutture e servizi a supporto dell’edificio.
Inoltre, anche il personale che risiede nella zona del terremoto potrebbe essere direttamente (ferito, con abitazione danneggiata…) o indirettamente (danni ai familiari…) coinvolto e quindi temporaneamente indisponibile.
Si tratta di uno scenario quindi con effetti molto estesi sia in termini di distruzione prodotta sia in termini di concreta possibilità di ripristino in locale della normale operatività.
Diversamente, un incendio all’edificio, pur provocando potenzialmente gli stessi effetti distruttivi di un terremoto, è un evento locale e difficilmente ha impatti che vanno al di là dell’edificio stesso.
Si potrebbe continuare considerando i vari eventi e relativi scenari di indisponibilità.
Quanti sono quindi i piani che è opportuno predisporre?
È evidente che in questo i parametri elencati da Banca d’Italia assumono significato, unitamente ad altre considerazioni riportate dalla normativa: “… Il piano di continuità operativa si inquadra nella complessiva politica di governo dei rischi dell’operatore; esso tiene conto delle vulnerabilità esistenti e delle misure preventive poste in essere per garantire il raggiungimento degli obiettivi aziendali…”.
Gli stessi parametri indirizzano nella scelta di quali scenari sia opportuno prendere in considerazione più di altri, in funzione anche delle contromisure in essere e definire, di conseguenza, i relativi piani a medio e lungo termine.
Conclusioni
L’attuale pandemia e il massiccio ricorso all’uso dello smart working ha inoltre evidenziato che non necessariamente è necessario ed auspicabile un ritorno alla situazione pre-crisi.
Le aziende che hanno saputo adattarsi al nuovo modo di lavorare sono sicuramente molto più resilienti di prima, non solo rispetto allo scenario pandemico, ma rispetto a molte altre situazioni crisi.
Sarebbe quindi veramente miope pensare di ritornare alla così detta “normalità” senza capitalizzare quanto si è sviluppato in questo periodo; una prospettiva particolarmente interessante e da non sottovalutare.
NOTE
- Articolo del CAD non più in vigore ↑
- Resilienza contro gli attacchi informatici: linee guida per le aziende. ↑