Anonimizzazione e pseudonimizzazione sono due concetti chiave in ambito privacy e data protection, in particolare in considerazione della normativa europea in materia, il Regolamento UE 679/2016 (GDPR).
Innanzitutto, i principi previsti dal GDPR si applicano solo con riferimento ai dati personali, vale a dire qualsiasi informazione riguardante una persona fisica identificata o identificabile, ossia l’interessato.
Infatti, mentre i dati personali sottoposti a pseudonimizzazione[1] – che potrebbero essere attribuiti a una persona fisica mediante l’utilizzo di ulteriori informazioni – devono essere considerati informazioni su una persona fisica identificabile, le norme previste dal GDPR non si applicano:
- a informazioni anonime, ossia quelle che non si riferiscono a una persona fisica identificata o identificabile;
- a dati personali resi sufficientemente anonimi da impedire – o da non consentire più – l’identificazione dell’interessato.
Appare quindi sin da subito evidente l’importanza di anonimizzazione e pseudonimizzazione nell’ottica di un titolare del trattamento che intenda, rispettivamente:
- uscire dall’ambito di applicazione del GDPR, evitando così di dover rispettare (o dover continuare a rispettare) tutte le norme applicabili ivi contenute (grazie all’anonimizzazione dei dati);
- adoperarsi per ridurre i rischi degli interessati, pur rimanendo nell’ambito di applicazione del regolamento, essendo la pseudonimizzazione considerata dalla legge una misura di sicurezza adeguata, anche in un’ottica di privacy by design[2].
L’uso di dati anonimi assume particolare rilevanza nel contesto, ad esempio, della medicina, dell’economia, della statistica e della ricerca. Si tratta di un concetto fondamentale anche in considerazione dei principi di minimizzazione e di limitazione della conservazione (art. 5 GDPR), in virtù dei quali i dati possono essere trattati nei limiti delle finalità per cui sono stati raccolti e poi conservati in una forma che consenta l’identificazione degli interessati per un arco di tempo non superiore al conseguimento di tale finalità: decorso tale termine, i dati potrebbero essere cancellati o resi anonimi.
La pseudonimizzazione, invece, è un’opportunità a cui è possibile fare riferimento, in modo trasversale, laddove il trattamento presenti delle criticità che richiedano, da parte del titolare o del responsabile del trattamento, un particolare livello di protezione del dato: un esempio calzante, in proposito, è quello dei trasferimenti di dati extra-UE nei paesi terzi (quelli considerati non adeguati dalla Commissione UE), nell’ambito dei quali la pseudonimizzazione può diventare una misura supplementare di tipo tecnico – anche in aggiunta ad altre legali/contrattuali e organizzative – potenzialmente efficace[3].
In ogni caso, devono essere sempre individuate le due componenti di un trattamento di pseudonimizzazione, vale a dire il dato pseudonimizzato e l’informazione aggiuntiva, e deve inoltre essere garantita la separazione tra queste due componenti, in assenza della quale sarebbe possibile l’identificazione di un interessato[4].
Indice degli argomenti
Il rischio della re-identificazione
Un certo insieme di dati personali (dataset) potrebbe essere composto da:
- elementi identificativi diretti (es. un nome o un codice identificativo);
- da elementi identificativi indiretti (es. una posizione geografica in un dato momento o un’opinione su un certo tema), ossia frammenti di informazioni che possono essere usati, da soli o in combinazione con altri elementi, per re-identificare un individuo in un dataset.
La re-identificazione consiste quindi nell’identificare un interessato trasformando dati anonimizzati in dati personali usando specifiche tecniche, come quelle di “data matching”.
Sono numerosi i possibili esempi di un non corretto processo di anonimizzazione, con conseguente re-identificazione. Tra questi è clamoroso il caso Netflix[5] – che nel 2006 pubblicò un dataset contenente milioni di recensioni di film, sostenendo che queste fossero anonime mentre invece emerse che non lo fossero – o quello relativo alla New York City Taxi and Limousine Commission[6], che nel 2013 rese pubblico un elenco di milioni di corse, che includeva i luoghi di partenza e arrivo, gli orari e le targhe dei veicoli, teoricamente anonimizzate, in concreto invece riconducibili al titolare della licenza.
Se si intende approcciare il tema dell’anonimizzazione occorre quindi essere consapevoli dei possibili rischi e delle indicazioni delle autorità di controllo. L’anonimizzazione può essere infatti visto come il processo che cerca di trovare il giusto bilanciamento tra ridurre il rischio di re-identificazione e mantenere l’utilità di un certo dataset per determinate finalità.
Anonimizzazione e pseudonimizzazione: le indicazioni di AEPD e EDPS
Ad aprile 2021, l’Autorità di controllo spagnola (AEPD) e lo European Data Protection Supervisor (EDPS) hanno rilasciato un documento congiunto denominato “10 misunderstanding related to anonymisation”.
Nel documento vengono chiariti diversi punti, tra cui anche i seguenti:
- la crittografia non è una tecnica di anonimizzazione ma può invece rappresentare un potente strumento di pseudonimizzazione: infatti, gli algoritmi crittografici sono strutturati affinché il dato crittografato rimanga accessibile. Le chiavi usate per decriptare sono infatti le cosiddette “informazioni aggiuntive” che rendono i dati leggibili e consentono quindi di ricondurli a uno specifico individuo, identificandolo. Neanche la ipotetica cancellazione della chiave crittografica renderebbe i dati anonimi, in considerazione dei molti fattori tecnologici che potrebbero intervenire;
- non sempre è possibile ridurre il rischio di re-identificazione, ad esempio nei casi in cui il numero di interessati è limitato, quando le categorie di dati sono molto diverse o quando il dataset include un alto numero di dati demografici o di dati relativi all’ubicazione;
- l’anonimizzazione non è un processo permanente: esiste infatti il forte rischio che, in virtù anche dell’evoluzione tecnologica o di eventuali data breach che facciano trapelare informazioni rilevanti, i dati contenuti in un dataset vengano re-identificati;
- ogni processo di anonimizzazione deve essere basato una valutazione del rischio (quello di re-identificazione) e poi deve essere gestito e monitorato nel tempo;
- l’anonimizzazione non rende i dati inutilizzabili: questi potrebbero continuare a essere usati per specifiche finalità. In certi casi alcuni dati personali potrebbero essere separati da un dataset, ad esempio si potrebbero anonimizzare i log di accesso a un sito mantenendo solo la data di accesso e la pagina, ma non le informazioni relative a chi ha eseguito l’accesso;
- un processo di anonimizzazione non può essere standard: deve essere strutturato in considerazione della specifica organizzazione, del contesto di riferimento (es. natura dei dati, finalità di trattamento perseguite, categorie di interessati, ecc.) e del rischio di re-identificazione (che potrebbe aumentare, ad esempio, ove i dati vengano resi noti al pubblico e non a un numero limitato di soggetti);
- i possibili attacchi all’anonimizzazione possono consistere in tentativi volontari o involontari di re-identificazione, in data breach o nella divulgazione di dati al pubblico.
Anonimizzazione e pseudonimizzazione: linee guida dell’ICO
Anche l’Autorità di controllo inglese (ICO) sta cercando di sensibilizzare il mercato rispetto al tema in oggetto, fornendo proprie linee guida. A maggio 2021 ha pubblicato la prima parte (“Introduction to anonymisation”) e lo scorso ottobre la seconda (“How do we ensure anonymisation is effective?”) di un lavoro soggetto a consultazione pubblicazione denominato “Anonymisation, pseudonymisation and privacy enhancing technologies guidance”.
L’ICO, al pari dell’EDPS e dell’AEPD, mette in luce innanzitutto la necessità di valutare ogni caso di anonimizzazione come situazione a sé stante. Benché una anonimizzazione “assoluta” (al 100%) sia auspicabile, non sempre è praticabile, soprattutto inconsiderazione della rapida evoluzione della tecnologia. Tuttavia, il fatto che il rischio di re-identificazione possa in ipotesi persistere non significa che la tecnica di anonimizzazione sia in assoluto inefficace: le leggi sulla protezione dei dati[7] non richiedono che l’anonimizzazione sia del tutto priva di rischi. Lo specifico rischio della re-identificazione deve essere mitigato in modo che il verificarsi dell’evento sia sufficientemente remoto.
I fattori chiave per l’identificazione di una persona fisica sono i seguenti:
- individuazione di un interessato all’interno di un dataset da parte del titolare o di un altro soggetto (“singling out”);
- collegamento di diverse informazioni – contenute in uno o più database – riguardanti lo stesso individuo o gli stessi gruppi di individui (“linkability”); in virtù del cd. “effetto mosaico”, dati presi singolarmente non forniscono alcuna informazione mentre invece, combinati ad altri, restituiscono un’immagine con un significato;
- possibilità di dedurre, indovinare o predire dettagli riguardanti qualcuno sulla base di altre informazioni a disposizione (“‘inferences”); questo genere di previsioni possono essere il risultato anche di processi di analisi volti a trovare correlazioni tra diversi dataset e usarli per categorizzare e profilare individui.
Le tecniche efficaci di anonimizzazione sono volte a ridurre il possibile verificarsi delle suddette condizioni di identificabilità, all’esito di un risk assessment, da svolgersi sulla base di diversi fattori, tra cui anche lo stato dell’arte della tecnologia. La rapida evoluzione di questa richiede che il citato assessment venga svolto periodicamente, onde valutare se le misure adottate al momento T0 restino valide anche a T1, T2 ecc., ovvero se siano necessarie misure nuove o diverse affinché i dati restino anonimi.
Un ulteriore criterio suggerito dall’ICO in quest’ottica è il cosiddetto “motivated intruder test”, per valutare se un potenziale intruso sarebbe in grado di rendere identificabili gli interessati i cui dati sono anonimizzati, ove intendesse farlo, grazie a ulteriori informazioni in suo possesso o comunque accessibili/acquisibili. Il livello di competenza del possibile intruder, nell’ambito del test, dovrebbe essere parametrato anche alla tipologia di dati coinvolti: la presenza di dati finanziari o altamente confidenziali, ad esempio, dovrebbe far propendere per il ricorso a misure di sicurezza rafforzate.
Con riferimento invece alla pseudonimizzazione, l’ICO mette in guardia dal rischio che, con riferimento a uno specifico dataset, il titolare del trattamento possa considerarlo anonimizzato pur contenendo dati personali, ma in forma pseudonimizzata. In una simile situazione, l’erronea convinzione che il GDPR (o altre normative) non trovi applicazione – come ricordato, solo i dati anonimi escono dall’ambito di applicazione del GDPR – potrebbe avere conseguenze pregiudizievoli, per il titolare e per gli interessati.
L’ICO menziona alcuni dei vantaggi della pseudonimizzazione, così riassumibili:
- come previsto dal considerando 29 del GDPR (oltre che del cd. UK GDPR), sono incentivate misure di pseudonimizzazione non solo come misura di sicurezza ma anche come possibile strumento di analisi generale dei dati;
- la pseudonimizzazione è uno dei fattori da tenere in considerazione nel caso in cui un titolare decida di continuare a trattare i dati per una nuova finalità compatibile con quella originale;
- la pseudonimizzazione è una misura di sicurezza chiave, sia in fase di design del trattamento che nel corso dello svolgimento di ogni progetto;
- le tecniche di la pseudonimizzazione possono ridurre il rischio di pregiudizi per gli interessati in caso di data breach e possono inoltre rendere più agevole la gestione dei diritti degli intereressati (alcuni potrebbero non trovare applicazione se il titolare fosse in grado di dimostrare di non poter identificare gli interessati).
Conclusioni
Anonimizzare o pseudonimizzare dati personali può avere notevoli benefici per un titolare del trattamento, sia in termini economici che giuridici, a condizione che vengano implementate le misure corrette, alla luce delle best practice di mercato e delle indicazioni delle autorità di controllo.
Come evidenziato nel presente articolo, rendere anonimo un set di dati consente di escludere l’applicazione del GDPR, ma occorre svolgere – non solo in fase iniziale ma anche a intervalli periodici – assessment e test piuttosto strutturati per poter considerare efficace la tecnica di anonimizzazione.
La pseudonimizzazione dei dati, invece, non fa venire meno l’applicazione del GDPR, ma presenta rilevanti vantaggi – soprattutto in termini di riduzione dei rischi e di raggiungimento di elevati standard di sicurezza del dato – richiedendo tuttavia l’adozione di tecniche adeguate e la chiara individuazione delle due componenti essenziali, ossia il dato pseudonimizzato e l’informazione aggiuntiva, garantendo la separazione tra queste.
NOTE
Il GDPR definisce la pseudonimizzazione come segue (art. 4): il trattamento dei dati personali in modo tale che i dati personali non possano più essere attribuiti a un interessato specifico senza l’utilizzo di informazioni aggiuntive, a condizione che tali informazioni aggiuntive siano conservate separatamente e soggette a misure tecniche e organizzative intese a garantire che tali dati personali non siano attribuiti a una persona fisica identificata o identificabile. ↑
Cfr. articoli 25 (Protezione dei dati fin dalla progettazione e protezione dei dati per impostazione predefinita) e 32 (Sicurezza del trattamento) del GDPR. ↑
L’EDPB nella Raccomandazione 1/2020 del 18 giugno 2021 include la pseudonimizzazione tra gli esempi di misure supplementari efficaci per il trasferimento di dati personali in un paese terzo, a condizione che vengano rispettate una serie di requisiti, e.g. i dati non possono essere ricondotti a un determinato interessato senza l’uso di informazioni aggiuntive, che queste ultime siano tenute dal data exporter nell’UE o in altra giurisdizione adeguata, che il oro uso non autorizzato si impedito da misure di sicurezza adeguate, ecc. ↑
Cfr. Provvedimento del Garante Privacy del 1° giugno 2020 di autorizzazione al trattamento dei dati personali effettuato attraverso il Sistema di allerta Covid 19- App Immuni. ↑
Cfr. Narayanan, A., & Shmatikov, V. (2006). How to break anonymity of the Netflix prize dataset. ↑
Cfr. Pandurangan, V. (2014). On taxis and rainbows: Lessons from NYC’s improperly anonymized taxi logs. ↑
Il framework legale di riferimento del Regno Unito dopo la Brexit è composto di norme locali (tra cui il cd. UK GDPR), che ricalcano tuttavia in larga misura l’impianto europeo. ↑