Akamai sta ancora cercando di trovare la causa alla base dell’interruzione diffusa del 22 luglio collegata alla rete di distribuzione dei contenuti: il sospetto è un bug nel sistema DNS, legato a un aggiornamento. L’incidente ha causato il blocco temporaneo di diversi siti e servizi online, tra cui Steam, PlayStation Network, Newegg, AWS, Amazon, Google e Salesforce, Airbnb, FedEx, LastPass, UPS, il 22 luglio mattina. L’azienda ha subito avviato un’azione interna di mitigazione dando comunicazione del problema correlato alla funzionalità Zone Apex Mapping del servizio Edge DNS, mediante un report di incidente. Il problema risolto nel primo pomeriggio dello stesso giorno ha permesso ai siti interessati di tornare online. Ma le indagini sono in corso.
Indice degli argomenti
Incidente Akamai: cos’è successo
Edge DNS è la soluzione proprietaria di Akamai che implementa la funzione del DNS ed è basata su cloud. Dopo un primo tweet in cui Akamai ha esplicitato l’interruzione di questo servizio e il suo impegno per esaminare e risolvere il problema, è stata implementata una soluzione per far tornare i servizi alla normalità per tutti i clienti, unitamente alla conferma che l’interruzione non era stata causata da un attacco informatico.
In particolare, l’investigazione interna ha fatto emergere come un aggiornamento della configurazione del software abbia attivato un bug nel sistema DNS, che indirizza i browser ai siti Web provocando l’interruzione e il blocco di disponibilità di alcuni siti Web dei clienti. Fra questi anche Delta Air Lines, British Airways, Capital One, Go Daddy, Vanguard, UPS, LastPass, AT&T e Costco fra quelli che hanno sperimentato rallentamenti e/o mostravano un “DNS failure” giovedì scorso. La risoluzione è stata ottenuta mediante il rollback dell’aggiornamento della configurazione del software; al termine della ricostituzione i servizi hanno ripreso le normali operazioni.
DNS dinamici, sicurezza e privacy: le best practice per l’utilizzo consapevole di questi servizi
Il tempo totale di outage è stato di circa un’ora. La ripercussione però è stata globale senza limiti di area geografica e con molti casi concreti, a volte critici, per le aziende coinvolte. Infatti, le conseguenze dell’incidente nel servizio digitale hanno portato criticità nei servizi del mondo reale; ad esempio, i clienti di Delta Air Lines non potevano effettuare il check-in dei voli online. Per qualsiasi ulteriore informazione sugli incidenti eventuali sulle tecnologie Akamai è possibile visionare la pagina dedicata allo status dei sistemi che riporta giorno per giorno lo stato di salute “no incident” oppure un aggiornamento con report del problema occorso.
Il volume delle interruzioni di Internet su larga scala sembra essere solo in aumento, con alcuni dei siti più grandi del mondo spesso i più colpiti. L’interruzione odierna è stata causata da un errore DNS piuttosto che da un errore della rete di distribuzione dei contenuti. Ricordiamo come circa un mese fa un’altra interruzione diffusa a livello mondiale aveva colpito i server di Fastly CDN causando un impatto su molti siti e servizi online.
Come funziona Edge Dns
Il Domain Name System è come una rubrica telefonica per i siti web. La tecnologia individua gli indirizzi IP corretti da utilizzare quando le persone cercano di accedere a singoli siti Web. Il servizio Edge DNS è la soluzione proprietaria di Akamai che implementa la funzione del DNS per app e siti Web ed è basata su cloud. La soluzion è pensata per protegge dagli attacchi di negazione del servizio distribuiti o DDoS, ma in questo caso non ha potuto evitare di essere essa stessa oggetto di incidente correlato ad un aggiornamento di sicurezza che conteneva un Bug.
L’analisi: l’importanza di decentralizzazione e ridondanza
Il problema occorso ad EDGE DNS evidenzia un punto importante: Internet è stato originariamente progettato per essere decentralizzato e resistente ai guasti, ma poiché i più grandi siti e servizi del mondo si fondono attorno a pochi enormi fornitori di infrastrutture, i guasti di tali fornitori hanno effetti sempre più significativi sull’ecosistema Internet nel suo insieme.
A tal proposito, David Warburton, Principal Threat Research Evangelist di F5 ha dichiarato: “L’internet moderno si avvicina al suo quarantesimo compleanno e dimostra ancora oggi quanto sia stato progettato bene, con livelli di resilienza e ridondanza. In effetti, il web era stato pensato in modo da essere decentralizzato. Non fare affidamento su nessun sistema centralizzato significava che, anche in caso di guasto di diversi componenti, il traffico Internet trova comunque sempre un modo per aggirare l’ostacolo e arrivare a destinazione. Quello a cui abbiamo assistito nell’ultimo decennio, però, è stata una centralizzazione involontaria di molti servizi di base attraverso i grandi provider delle soluzioni cloud, come i vendor di infrastrutture e CDN, che sono diventati una sorta di “supermercato” per il web”.
E ha aggiunto: “Molti di noi apprezzano la facilità con cui si possono acquistare beni di consumo e alimenti diversi in un unico supermercato piuttosto che recarsi in una dozzina di negozi differenti; allo stesso modo, i provider di soluzioni cloud offrono molti vantaggi, come un deployment più semplice delle applicazioni, la riduzione della complessità di gestione e la possibilità di realizzare una buona economia di scala. Con un modello di distribuzione applicativa Internet tradizionale, un’interruzione di un server o un’applicazione mal configurata possono mettere fuori gioco un singolo sito web, ma, come abbiamo visto oggi, un problema simile per un provider di soluzioni cloud può ripercuotersi su tutti i suoi clienti, con il risultato che non è solo un sito web a finire offline, ma centinaia o migliaia. Un impatto che può potenzialmente influenzare le esperienze digitali di tutti gli utenti e ripercuotersi sui ricavi e sulla reputazione delle organizzazioni.
I provider non devono dunque “dimenticare le lezioni del passato. La ricentralizzazione di Internet attraverso queste soluzioni cloud sta infatti causando oggi gli stessi problemi che il design originale di Internet si proponeva di evitare attraverso la ridondanza. È importante, quindi, considerare un approccio che ci permetta di allontanarci dai singoli point of failures; in caso contrario in futuro vedremo emergere sempre più problemi di questo tipo”.