il rapporto

Quando l’IT va in tilt: come, perché e con quali costi aziendali

L’Uptime Institute ha pubblicato l’Annual Outage analysis 2024 che analizza i dati sulle tendenze delle interruzioni dell’IT e dei data center in termini di cause, costi e conseguenze

Pubblicato il 22 ago 2024

Federica Maria Rita Livelli

Business Continuity & Risk Management Consultant, BCI Cyber Resilience Committee Member, CLUSIT Direttivo, ENIA Comitato Scientifico

Tenere traccia delle interruzioni dei data center non è né semplice né coerente. Alcune interruzioni sono visibili e ben pubblicizzate, altre rimangono riservate. Alcuni manager, personale e clienti potrebbero essere a conoscenza delle interruzioni, mentre altri – in ruoli diversi – potrebbero non esserlo. Inoltre, alcuni rallentamenti o interruzioni importanti potrebbero non essere classificati come interruzioni.

Il nuovo report Annual Outage analysis 2024 di Uptime Institute è scaturito dalla sintesi di altri quattro report in termini di dati monitoraggio delle interruzioni o degli incidenti del data center e dell’IT che potrebbero causare interruzioni e, precisamente:

Uptime Institute Global Survey of IT and Data Center Managers
Uptime Institute Data Center Resiliency Survey
Uptime Institute Intelligence’s public outages database
Uptime Institute’s Abnormal Incident Report (AIRs) database
Uptime Institute Professional Services

È doveroso evidenziare, altresì, che l’analisi fornita dal report in questione fa riferimento ad una classificazione della gravità delle interruzioni come di seguito riportata.

Categoria	Interruzione del servizio	Impatto
1	Trascurabile	Interruzione registrabile ma con impatto minimo o nullo sui servizi
2	Minima	Servizi interrotti. Effetto minimo su utenti/clienti/reputazione
3	Significativa	Interruzioni del servizio clienti/utenti, per lo più di portata, durata o effetto limitati. Effetto finanziario minimo o nullo. Alcuni impatti sulla reputazione o sulla conformità.
4	Seria	Interruzione del servizio e/o del funzionamento. Le conseguenze includono alcune perdite finanziarie, violazioni della conformità, danni alla reputazione e possibilmente problemi di sicurezza. Possibili perdite per i clienti.
5	Grave	Interruzione grave e dannosa dei servizi e/o delle operazioni con ramificazioni tra cui ingenti perdite finanziarie e possibilmente problemi di sicurezza, violazioni della conformità, perdite di clienti e danni alla reputazione.

Dal recente report emerge un miglioramento dell’affidabilità dei servizi IT, risultato di decenni di innovazione, investimenti e miglioramento della gestione. Tuttavia, gli operatori dei data center si trovano ad affrontare nuove sfide a fronte dell’aumento della domanda, dell’adozione di tecniche di ottimizzazione basate su software e del crescente rischio di minacce informatiche.

Inoltre, gli eventi meteorologici avversi, amplificati dai cambiamenti climatici, e l’uso crescente di energia rinnovabile nella rete elettrica aggiungono ulteriori rischi. Ancora, i guasti gravi sembrano essere più comuni, influenzati dall’alto livello di IT critica in uso, dalla dipendenza sociale dall’IT e dalla visibilità mediatica.

Il rapporto si concentra sulle interruzioni significative (categorie 3, 4 e 5) che possono avere conseguenze gravi e, nel 2024, si prevede un aumento dei guasti dovuti a errori software, sistemi o configurazioni, riflettendo la crescente complessità dell’IT. Di seguito vediamo di che si tratta.

Indice degli argomenti

Frequenza e gravità delle interruzioni

L’espansione globale dei data center per soddisfare la crescente domanda comporterà probabilmente un aumento complessivo delle interruzioni legate a essi. Tuttavia, i dati dell’Uptime Institute indicano una costante diminuzione nella frequenza e nella gravità delle interruzioni rispetto alla crescita generale dell’IT. Nel sondaggio sui data center del 2023, più della metà degli operatori (55%) ha riportato un’interruzione negli ultimi tre anni, in calo rispetto al 60% del 2022 e al 69% del 2021. Solo il 10% delle interruzioni del 2023 è stato classificato come significativa o grave, un miglioramento rispetto agli anni precedenti.

È doveroso evidenziare che l’Uptime Institute si concentra sulle interruzioni dei data center e non su tutte le interruzioni dei servizi IT. Per migliorare la precisione dei dati, i partecipanti al sondaggio sono stati interrogati sulla struttura specifica con cui sono più familiari, anziché sul sito più grande dell’operatore del data center. Ciò potrebbe influenzare i dati, ma le verifiche suggeriscono che l’impatto sui confronti nel tempo è stato limitato.

Da questi dati emergono diversi punti chiave, quali:

Diminuzione complessiva – Le interruzioni sembrano diminuire nel corso degli anni rispetto alla crescita generale dell’IT, probabilmente a causa di molteplici fattori.
Nessun autocompiacimento – Nonostante la diminuzione delle interruzioni, non c’è spazio per l’autocompiacimento. Il settore riconosce che i tassi di interruzione rimangono preoccupanti, spingendo gli stakeholder a investire nella resilienza.
Public cloud – Il passaggio al cloud pubblico non garantisce necessariamente meno interruzioni, ma potrebbe influenzare come vengono registrate e gestite.
Long COVID – La pandemia ha avuto un impatto significativo sui data center, influenzando la domanda, le catene di approvvigionamento e i tassi di interruzione. Questi effetti si protraggono nel 2024, con conseguenze a lungo termine ancora incerte.
Instabilità della rete – Il passaggio a reti più dinamiche e rinnovabili potrebbe ridurre l’affidabilità complessiva della rete, aumentando il rischio di interruzioni per i data center.
Cambiamento climatico – Gli eventi meteorologici estremi, amplificati dal cambiamento climatico, rappresentano una minaccia crescente per i data center e potrebbero aumentare i rischi di interruzione.
Adozione di nuove tecnologie – L’adozione di nuove tecnologie e pratiche, se da un lato può migliorare la resilienza nel lungo periodo, dall’altro lato, comporta anche rischi aggiuntivi che richiedono una gestione attenta, quali: l’uso di tecnologie di resilienza distribuita, il raffreddamento a liquido e altre innovazioni.

Nonostante l’incremento dei fattori di rischio, i dati dell’indagine annuale condotta dall’Uptime Institute, fino al 2023, suggeriscono una diminuzione del tasso di interruzioni per struttura. Tale tendenza potrebbe essere guidata da diversi fattori, ma uno spicca in particolare, anno dopo anno: la maggior parte delle organizzazioni sta aumentando gli investimenti nella ridondanza dell’infrastruttura fisica. Un andamento che contraddice le aspettative secondo le quali gli approcci multi-sito avrebbero compromesso le costose strategie di ridondanza a livello di sito fisico. Sebbene il settore stia probabilmente muovendosi verso modelli di resilienza distribuiti e basati su software, il mantenimento e l’aumento della ridondanza a livello di sito rimangono una priorità assoluta per la maggior parte degli operatori.

L’Uptime Institute, oltre alle regolari indagini sulla resilienza e ad altri sondaggi, monitora anche le principali interruzioni segnalate dai media o da altre fonti pubblicamente disponibili, come i social media e il governo, considerando che tali dati aggregati forniscono ulteriori informazioni sulla natura e sull’impatto delle interruzioni.

Nel corso degli ultimi otto anni, i media e i social media hanno segnalato un aumento del numero di interruzioni, sebbene molte siano di natura banale e le segnalazioni talvolta imprecise. Pertanto, non vengono più raccolte segnalazioni di piccole interruzioni di categoria 1, a meno che non siano confermati gravi danni finanziari, interruzioni o danni alla reputazione. Nel 2023, l’Uptime Institute ha documentato ben 110 interruzioni.

Nel 2023, la percentuale di interruzioni significative o gravi segnalate pubblicamente è continuata ad aumentare. in particolare, Le interruzioni di categoria 4 e 5 combinate sono aumentate di 12 punti percentuali rispetto al 2022, molto probabilmente a causa della crescente dipendenza di altri settori dall’IT, con conseguenze diffuse che interessano milioni di utenti quando si verificano interruzioni. Tuttavia, tale dato potrebbe anche indicare un minor interesse da parte dei media nel segnalare interruzioni minori. Nonostante ciò, è probabile che gli incidenti gravi causino maggiori danni finanziari e reputazionali rispetto agli anni precedenti e, pertanto, siano più inclini a essere riportati dai media pubblici.

Di fatto, i dati indicano che ogni anno potrebbero verificarsi da 10 a 20 interruzioni IT o eventi sui data center di alto profilo in tutto il mondo che comportano conseguenze significative, come gravi perdite finanziarie, interruzioni dell’attività e dei servizi per i clienti, danni alla reputazione dell’azienda e, in casi estremi, anche perdite di vite umane.

È doveroso evidenziare che tali interruzioni possono avere un impatto significativo, altresì, sull’operatività e sulla sicurezza delle organizzazioni coinvolte, sottolineando l’importanza della resilienza e della gestione efficace dei rischi nell’ambito dell’IT e dei data center.

Cause di interruzione

Stabilire la causa principale di un’interruzione del data center è fondamentale per prevenire ripetute istanze di interruzione e per identificare le aree che richiedono maggiori investimenti per mitigare i rischi. Tuttavia, valutare i dati sulle interruzioni presenta sfide a causa della complessità degli incidenti, spesso derivanti da una combinazione di fattori.

I sondaggi annuali condotti dall’Uptime Institute indicano che le interruzioni della distribuzione dell’energia in loco sono la causa più comune di interruzioni significative. Questo non sorprende, poiché l’hardware IT è estremamente sensibile a qualsiasi disturbo dell’alimentazione, come fluttuazioni di tensione o perdita completa di potenza. Al contrario, i guasti o le prestazioni insufficienti delle apparecchiature di raffreddamento tendono ad essere tollerati per periodi più lunghi, grazie a meccanismi termici di passaggio o capacità di reindirizzamento del traffico di rete.

Sebbene gli errori di origine IT possano verificarsi più frequentemente, spesso hanno effetti isolati di minore impatto, influenzando principalmente applicazioni o set di dati specifici. D’altra parte, i problemi legati ai fornitori di terze parti mostrano un aumento marginale ma costante dal 2020, rappresentando quasi un’interruzione su 10 nel 2023, a causa della crescente dipendenza da servizi cloud, software as a service (SaaS) e fornitori di colocation.

Inoltre, l’indagine annuale sulla resilienza condotta dall’Uptime Institute rivela che le cause più comuni di eventuali interruzioni dei servizi IT end-to-end, indipendentemente dal fatto che siano state le più recenti o le più impattanti, sono più comuni e superano considerevolmente le interruzioni legate all’alimentazione.

Le interruzioni del software o della configurazione aumentano con la complessità della rete

Gli strumenti software sono sempre più utilizzati per gestire la pianificazione della capacità, l’efficienza energetica, l’ottimizzazione della rete e il monitoraggio dell’hardware nei data center. Sebbene questi strumenti possano migliorare la resilienza, aiutando a soddisfare la crescente domanda di prestazioni applicative avanzate, introducono anche complessità e nuovi rischi, contribuendo a un cambiamento nelle cause degli incidenti registrati negli ultimi anni. Le interruzioni causate da problemi software o di configurazione nei sistemi IT e nell’infrastruttura di rete sono, di fatto, aumentate rispettivamente del 5% e 10% rispetto al 2022.

Inoltre, le reti più complesse e interconnesse possono aumentare i rischi informatici, con gli attacchi di sicurezza informatica che sono diventati una chiara causa di interruzioni. Questi attacchi possono comportare gravi perdite di dati privati e potrebbero essere sottostimati, indicando un impatto potenzialmente maggiore.

Operatori commerciali sotto i riflettori

Il report rivela che, negli ultimi otto anni, più di due terzi delle interruzioni segnalate pubblicamente sono state causate dagli operatori commerciali terzi di IT e/o data center – tra cui giganti del cloud/internet, servizi digitali e telecomunicazioni – a fronte della crescente adozione dei servizi IT professionali in outsourcing, quali: colocation, cloud hosting e servizi di terze parti. Sebbene il passaggio a sedi e servizi di terze parti possa ridurre i rischi, i guasti possono ancora verificarsi e avere gravi conseguenze.

Inoltre, dal report si evince che le interruzioni nel settore finanziario sono diminuite nel 2022 e nel 2023 rispetto alla media del periodo precedente, possibilmente a causa di normative più severe dopo una serie di interruzioni di grandi dimensioni e ad alto impatto verificatesi prima del 2021.

Il settore delle telecomunicazioni ha registrato, invece, un aumento delle interruzioni, influenzato dalla crescente domanda di connettività e capacità che ha messo a dura prova le reti e le infrastrutture legacy. Le interruzioni in questo settore possono avere un impatto enorme data l’importanza delle reti mobili.

Il report evidenzia, altresì, che l’uso sempre più diffuso di data center standardizzati e meno costosi potrebbe aumentare alcuni rischi e diminuirne altri rispetto ai progetti precedenti, resilienti ma più costosi. Inoltre, l’adozione di tecnologie come il software-defined networking, il 5G e la virtualizzazione delle funzioni di rete aggiunge ulteriore complessità a questi sistemi.

Affidabilità del cloud e dei provider di terze parti

I servizi cloud sono progettati per ridurre al minimo i tassi di errore, con i principali fornitori che implementano livelli di software e middleware e distribuiscono strategicamente la capacità tra sistemi, reti e data center. Tuttavia, nessuna architettura è immune da errori e le sfide legate alla gestione di software, dati e reti su larga scala rendono inevitabili le interruzioni. Ne consegue che, con l’aumento dell’adozione del cloud pubblico, gli errori possono coinvolgere milioni di utenti e ricevere attenzione significativa dai media.

È doveroso notare che, nonostante il crescente ruolo previsto per il cloud nell’IT aziendale, molti operatori rimangono cauti nell’affidare a terzi le applicazioni e i dati più sensibili. Solo il 16% degli operatori intervistati nel sondaggio sulla resilienza del 2024 dell’Uptime Institute ritiene che il cloud pubblico sia sufficientemente resiliente per tutti i carichi di lavoro mission-critical della propria organizzazione, mentre una percentuale simile non si fida del cloud pubblico per tali carichi di lavoro.

Negli ultimi tre anni, molte organizzazioni hanno abbandonato la strategia “cloud-first” e stanno adottando un approccio più cauto e selettivo, come evidenziato dai dati del sondaggio di Uptime Institute, che segnalano un rallentamento delle migrazioni aziendali su larga scala verso il cloud.

Le principali ragioni che ostacolano ulteriormente l’adozione dei servizi cloud per le applicazioni critiche sono cambiate nel corso del tempo. Ovvero, mentre in passato la mancanza di chiarezza sulla resilienza operativa dei provider era un problema, oggigiorno la maggior parte degli operatori (64%) cita i problemi di sicurezza dei dati come principale ostacolo. Un cambiamento che potrebbe essere attribuito a recenti attacchi informatici a fornitori di servizi cloud che hanno compromesso informazioni riservate e messo offline servizi. Tuttavia, nonostante la preoccupazione per la sicurezza dei dati, solo il 20% degli intervistati cita i problemi di resilienza come deterrente principale.

È significativo notare che, nonostante gli attacchi informatici rappresentino una preoccupazione crescente, gli errori di software o di configurazione dei fornitori di servizi IT di terze parti sono ancora più frequenti nel causare interruzioni, con una probabilità tre volte superiore rispetto ai problemi di sicurezza informatica.

Interruzioni di corrente

Le interruzioni legate all’alimentazione rappresentano, spesso, i casi più gravi di inattività. Sebbene la diagnosi e il ripristino dell’alimentazione siano nella maggior parte dei casi rapidi, il riavvio delle apparecchiature IT e la sincronizzazione dei database possono richiedere diverse ore, supponendo che non siano stati danneggiati durante l’interruzione. Inoltre, i dati del sondaggio annuale condotto da Uptime Institute mostrano costantemente che, sebbene i problemi legati all’alimentazione siano la causa più comune di interruzioni di impatto per i data center, rappresentano anche una quota crescente delle interruzioni complessive anno dopo anno.

Secondo il report, le sfide con le reti elettriche potrebbero peggiorare questa tendenza in futuro. Di fatto, l’affidabilità della rete è minacciata da una serie di fattori, tra cui l’invecchiamento delle infrastrutture e dei sistemi di trasmissione, l’aumento della domanda, lo smantellamento dei vecchi impianti di generazione di energia, eventi meteorologici estremi e una crescente dipendenza da fonti di energia rinnovabile intermittenti.

Per quanto riguarda le interruzioni di corrente nei propri siti, il 30% degli operatori intervistati nel sondaggio sulla resilienza del 2024, condotto da Uptime Institute, ha subito un’interruzione di grande impatto causata da problemi con i sistemi di alimentazione negli ultimi tre anni. I problemi UPS sono stati citati come la causa più comune di queste interruzioni, come risulta essere ogni anno dai dati dell’indagine.

Inoltre, gli ingegneri che operano nei data center identificano diversi problemi comuni con i sistemi UPS statici, ovvero:

Le ventole si guastano frequentemente a causa della loro costante attività e del loro costo ridotto. Anche se il guasto di una singola ventola di solito non causa problemi, il malfunzionamento di più ventole potrebbe compromettere l’unità.
I condensatori snubber possono guastarsi a causa dell’usura e necessitano di manutenzione preventiva regolare per ridurre i guasti.
Le batterie, colpite dall’invecchiamento, richiedono una gestione attenta e monitoraggio accurato per evitare guasti. Spesso, i guasti sono il risultato di una scarsa supervisione tecnica.
I guasti dello stack dell’inverter sono meno comuni, ma possono verificarsi a causa di sovraccarichi o usura.
La frequenza dei problemi con l’UPS tende ad aumentare con l’età dell’apparecchiatura, soprattutto se non viene eseguita una manutenzione regolare o sostituzioni tempestive.

Dal report si evince altresì che gli operatori dei data center, che non dispongono di adeguati piani di manutenzione preventiva, potrebbero ritardare le necessarie riparazioni o sostituzioni, aumentando il rischio di guasti. Inoltre, è doveroso ricordare che i generatori richiedono manutenzione programmata regolare, controlli del carburante e collaudi per garantire la loro affidabilità. Pertanto, anche se le unità ATS (Automatic Transfer Switch) sono robuste, possono verificarsi guasti a causa di problemi elettrici o di alimentazione. Inoltre, altri guasti meno comuni possono essere causati da problemi meccanici come cuscinetti usurati o interruttori bloccati.

Interruzioni della rete

Negli ultimi anni, i problemi di rete sono diventati una causa sempre più frequente di interruzioni nei servizi IT. Secondo l’indagine sulla resilienza 2024 condotta dall’Uptime Institute, gli errori di configurazione/gestione delle modifiche e i guasti dei provider di rete di terze parti sono le due principali cause di interruzioni legate alla rete o alla connettività, con numeri simili agli anni precedenti.

Inoltre, l’uso crescente della virtualizzazione per soddisfare la domanda di applicazioni ha aumentato la dipendenza da componenti software come i sistemi di gestione, monitoraggio e automazione, che possono contribuire a prevenire errori umani nelle reti. Ancora, la necessità di modificare gli script in caso di cambiamenti alla rete può causare errori durante la riconfigurazione, soprattutto quando le organizzazioni utilizzano più fornitori di hardware, rendendo più complessa la manutenzione e l’adattamento degli script con ogni modifica introdotta.

Dal report risulta che gli errori di configurazione, del firmware e le tabelle di routing danneggiate sono tra le principali cause di guasti nella rete, mentre le preoccupazioni legate alle condizioni meteorologiche e alle rotture dei cavi giocano un ruolo meno significativo.

Inoltre, i problemi di congestione e di capacità possono causare guasti, spesso derivanti da errori di programmazione o configurazione. Ancora, in ambienti complessi ad alta velocità, anche piccoli errori possono propagarsi attraverso le reti, generando errori a cascata difficili da fermare, diagnosticare e correggere. Di fatto, l’aumento dei guasti alla rete o al software ha contribuito all’incremento dei guasti nel settore delle telecomunicazioni segnalati pubblicamente.

Interruzioni del sistema e del software

Le interruzioni causate da guasti e bug nei sistemi IT e nel software sono una sfida persistente per le operazioni IT, nonostante i miglioramenti negli strumenti e nei processi. Di fatto, interruzioni gravi continuano a rappresentare un problema, con oltre un terzo degli operatori che ne ha subite negli ultimi tre anni. Queste interruzioni derivano dalla complessità dei sistemi moderni e dalla dipendenza crescente dal software per garantire la disponibilità nei data center distribuiti. Problemi come la sincronizzazione del database, il bilanciamento del carico e la gestione del traffico possono causare tempi di inattività parziali o completi in più data center o zone di disponibilità.

Il report evidenzia che i problemi software derivano principalmente da problemi di configurazione e gestione delle modifiche, patch, aggiornamenti e altre modifiche, che possono causare instabilità ed errori imprevisti. Inoltre, tali errori, dopo essersi propagati attraverso le reti, diventano più difficili da contenere. Ancora, anche se i guasti hardware e software hanno meno probabilità di causare interruzioni rispetto ai problemi di configurazione e gestione delle modifiche, contribuiscono comunque a un numero significativo di interruzioni.

Rispetto al 2022, gli attacchi informatici – inclusi ransomware e attacchi DDoS (Distributed Denial of Service) – sono aumentati di sei punti percentuali e possono generare conseguenze gravi, tra cui la perdita di dati, perdite finanziarie e danni alla reputazione.

Il fattore umano

Gli operatori dei data center devono affrontare sfide considerevoli per prevenire e mitigare i tempi di inattività causati dagli errori umani che possono derivare da diversi fattori, tra cui: la formazione del personale, l’efficacia delle procedure, l’affaticamento del personale e la complessità delle attrezzature. Inoltre, c’è incertezza su come definire tali incidenti, ad esempio se includere un guasto della macchina causato da un errore software in fabbrica come errore umano. Pertanto, Uptime Institute considera l’errore umano come un fattore contributivo piuttosto che come la sola causa delle interruzioni.

L’Uptime stima, a fronte di 25 anni di dati, ritiene che l’errore umano, diretto o indiretto, contribuisca a una maggioranza significativa degli incidenti di downtime. Nei recenti sondaggi sulla resilienza, Uptime Institute ha esaminato come la composizione di alcuni di questi fallimenti sia correlata all’errore umano, rilevando che le interruzioni legate a ciò sono principalmente causate da procedure non seguite dal personale o dall’inadeguatezza delle procedure stesse.

Il report conferma che, anche se i metodi di formazione più solidi e i processi efficaci per il personale non possono eliminare tutti i possibili guasti, la maggior parte degli operatori (circa il 78%) ritiene che una migliore gestione e processi avrebbero potuto prevenire l’incidente più recente di downtime della propria organizzazione. Questa proporzione è rimasta molto costante nel tempo: dal 2020, almeno il 75% degli operatori ha sempre considerato prevenibile l’ultima interruzione, suggerendo un’opportunità significativa per ridurre notevolmente i tempi di inattività attraverso miglioramenti in termini di processi e di gestione.

Le interruzioni si stanno allungando?

Le interruzioni più lunghe tendono ad essere più costose, dirompenti e ad attirare maggiormente l’attenzione dei media, con conseguente danno alla reputazione dell’azienda coinvolta. Anche se la maggior parte delle interruzioni (circa il 64%) viene risolta entro 12 ore, c’è una tendenza preoccupante all’aumento delle interruzioni non completamente ripristinate dopo 24 ore. Ciò può essere attribuito a diversi fattori, tra cui un aumento degli incendi e delle complicazioni legate alla sincronizzazione dei dati distribuiti e dei sistemi di gestione.

Inoltre, gli attacchi ransomware stanno diventando più comuni e richiedono spesso l’arresto di tutti i sistemi potenzialmente colpiti. Quasi la metà delle interruzioni che sono durate più di 48 ore sono state causate da incendi o attacchi informatici.

Recenti interruzioni significative o gravi

La maggior parte degli anni registra da 15 a 20 interruzioni segnalate pubblicamente classificate come “significative” o “gravi” (categoria 4 o 5) in termini di tempo di attività. Tali interruzioni, come ben noto, possono comportare costi elevati, danni alla reputazione, minacce alla vita o alla sicurezza e gravi violazioni delle regole di conformità, a seconda dei servizi coinvolti.

Di seguito la tabella dove sono riportati alcuni esempi di gravi interruzioni segnalate pubblicamente nel 2023 e all’inizio del 2024 e che riguardano principalmente società di telecomunicazioni, cloud e/o servizi digitali, dove le interruzioni possono avere un impatto su un’ampia varietà di clienti.

Costo delle interruzioni

Anche se gli operatori sembrano aver ridotto la probabilità delle interruzioni più significative e gravi, quelle che si verificano tendono ad essere costose. Secondo il sondaggio annuale 2023 di Uptime Institute, più della metà degli intervistati (54%) ha dichiarato che la loro interruzione più recente, significativa, grave o gravissima, ha comportato costi superiori a 100.000 dollari, con il 16% che ha stimato costi superiori a 1 milione di dollari.

È doveroso evidenziare che i dati sui costi sono leggermente inferiori rispetto agli anni precedenti, ma le modifiche alla metodologia dell’indagine potrebbero aver influenzato i confronti anno su anno.

Si ritiene che l’alto costo delle interruzioni è dovuto a fattori come l’inflazione, le sanzioni per la violazione degli SLA, il costo del lavoro e delle chiamate, e le spese di sostituzione delle parti. Tuttavia, il principale fattore è la crescente dipendenza delle operazioni aziendali dai servizi digitali e dai data center. Inoltre, l’interruzione dei servizi IT critici spesso comporta una perdita immediata di entrate e un’interruzione dell’attività. Ancora, i costi elevati derivanti dalle interruzioni probabilmente aumenteranno nel tempo a fronte di una maggiore dipendenza dai servizi digitali, portando a SLA più rigorosi, multe normative più numerose e più elevate, oltre a risarcimenti per i clienti colpiti da interruzioni di servizio. Ne consegue che è quanto mai urgente un’analisi approfondita delle cause e dei costi delle interruzioni e di un continuo o maggiore investimento nella resilienza.

Conclusione

L’alta disponibilità e la resilienza sono elementi cruciali per garantire il funzionamento affidabile dei data center. I dati di Uptime Institute mostrano che i progressi in questo settore sono graduali e ottenuti faticosamente e spesso costosi quando si verificano guasti, nonostante ci siano segnali di miglioramento nei tassi di interruzione rispetto alla capacità IT complessiva, grazie ad una serie di misure, tra cui: maggiori investimenti, la combinazione di resilienza basata su software e ridondanza fisica in loco, miglioramenti nella formazione, esternalizzazione e professionalità crescente di alcuni operatori terzi, insieme a una sorveglianza continua. Tuttavia, alcune tendenze emergenti nel 2024 potrebbero minare questi progressi. Ovvero: l’adozione diffusa di architetture distribuite potrebbe aumentare gli incidenti relativi alla rete, al software o al sistema, sebbene questo possa essere solo un effetto temporaneo; l’aumento della complessità del sistema e della rete potrebbe portare a una maggiore esposizione ai rischi di sicurezza informatica e a una maggiore vulnerabilità agli attacchi, la sfida continua del reclutamento e della formazione del personale richiederà maggiori sforzi e risorse.

Senza dimenticare che ci sono rischi esterni al data center stesso, come la stabilità della rete e gli effetti del cambiamento climatico, che possono influenzare le interruzioni e, anche se gli operatori possono fare poco direttamente su questi fronti, è possibile adottare misure per ridurre la loro esposizione.

Di fatto, la prevenzione delle interruzioni richiede vigilanza e investimenti continui. Attualmente, il settore delle infrastrutture digitali sta compiendo progressi, ma per mantenere questo obiettivo, sarà necessario un impegno costante nella progettazione solida del data center, nell’attenzione ai dettagli delle architetture e della topologia IT, nella ridondanza dell’infrastruttura fisica, nei test, nell’incremento della formazione e nella revisione continua.

In conclusione, per garantire la resilienza dei data center è necessario sempre più adottare un approccio risk -based e resilience based, scaturito dall’implementazione dei principi di risk management, business continuity e cyber security.

@RIPRODUZIONE RISERVATA