Misure di pseudonimizzazione, applicazioni pratiche per la protezione dei dati personali

Le tecniche di pseudonimizzazione sono applicabili come misure di sicurezza al trattamento dati, ma non c’è una tecnica buona per qualunque contesto e situazione: bisogna effettuare un’analisi caso per caso e scegliere la migliore opzione possibile. Ecco alcune utili indicazioni pratiche dell’ENISA

La pseudonimizzazione è una delle misure di sicurezza introdotte dal GDPR (art. 4.5) e che lo stesso Regolamento UE indica tra quelle utili all’applicazione del principio di privacy by design. È evidente, dunque, che si tratta di un tema focale per chi si occupa di dati personali.

A tal proposito, ENISA – l’ente designato a curare la cybersecurity per l’Unione Europea – ha di recente pubblicato il proprio report intitolato Data Pseudonymisation: Advanced Techniques and Use Cases per fornire una panoramica delle attuali tecniche di pseudonimizzazione, proponendo anche scenari pratici (cyber security e settore sanitario) di applicazione.

Indice degli argomenti

Misure di pseudonimizzazione: documentazione di riferimento

In particolare, il contributo dell’ENISA fornisce una rappresentazione dello stato dell’arte del settore. Segnala, pertanto, il livello richiesto oggi ai titolari del trattamento di dati personali per poter dimostrare, in sede di accountability, di aver implementato le misure idonee a tutelare i dati stessi, tra le quali figurano proprio le tecniche di pseudonimizzazione, non ancora diffuse come dovrebbero nella gestione dei dati.

L’ENISA non è nuova ad affrontare queste tematiche, anzi. Per dare un indirizzo, segnaliamo gli interventi succedutisi negli anni:

la guida Recommendations on shaping technology according to GDPR provisions – An overview on data pseudonymization, del gennaio 2019;
Il report Pseudonymisation techniques and best practices, del dicembre 2019, disponibile ora anche in italiano;
il workshop ULD – ENISA Workshop: Pseudonymisation and relevant security technologies, del novembre 2019, tenutosi a Berlino, con relativi atti;
l’overview delle tecniche PET Privacy by design in big data, del 2015, ove si tratta anche di pseudonimizzazione;
il report Privacy and Data Protection by Design sempre del 2015.

Ricordiamo che il contributo dell’ENISA si può intendere quale complemento e aggiornamento del precedente parere WP29 n. 5/2014 sull’anonimizzazione, tuttora valido anch’esso. Infine, ricordiamo l’interessante parere congiunto AEPD-EDPS, dell’ottobre 2019, sull’uso dell’hash come tecnica di pseudonimizzazione.

Misure di pseudonimizzazione: i concetti di base

Ricapitoliamo brevemente il tema della pseudonimizzazione, spesso fonte di confusione nella prassi. Ci troviamo nell’ambito dei gradi di identificazione di una persona, in base ai dati a essa collegati o collegabili, presenti in un dato sistema informativo. I gradi possibili sono:

identificazione: cioè il massimo grado possibile – possiamo dire con certezza chi sia la specifica persona a cui si riferiscono i dati;
pseudonimizzazione: forma più debole di identificazione – possiamo collegare più dati a un unico soggetto ma non sappiamo chi sia lo specifico interessato di riferimento – all’identificativo è sostituito uno pseudonimo;
anonimato: la più debole forma di identificazione – in tal caso non solo non si sa chi sia l’interessato ma non si può nemmeno affermare se più dati siano riconducibili a un medesimo soggetto – allo stato di cose, specie in tempi di big data, l’anonimato non può mai dirsi assoluto ma sempre relativo (il GPDR parla infatti di “ragionevole probabilità”).

Nell’ambito della protezione dei dati^[1], dati pseudonimizzati sono da considerare sempre e comunque dati personali (in quanto relativi a soggetti sufficientemente identificabili, seppur non immediatamente identificati) e pertanto soggetti agli usuali adempimenti.

La definizione di pseudonimizzazione all’art. 4.5 GDPR recita: “il trattamento dei dati personali in modo tale che i dati personali non possano più essere attribuiti a un interessato specifico senza l’utilizzo di informazioni aggiuntive, a condizione che tali informazioni aggiuntive siano conservate separatamente e soggette a misure tecniche e organizzative intese a garantire che tali dati personali non siano attribuiti a una persona fisica identificata o identificabile”.

Pertanto, i dati pseudonimizzati consentono al titolare di porre in essere trattamenti con meno rischi rispetto ai dati identificati, specie se si tratta di dati conferiti in tal modo a terzi, ad es. a responsabili per trattamenti che sono stati loro delegati.

Tecniche di pseudonimizzazione come misure di sicurezza

Le tecniche di pseudonimizzazione sono dunque applicabili come misure di sicurezza al trattamento di dati personali^[2], e sono tecnologicamente neutre (mentre gli strumenti di loro applicazione possono essere manuali o automatizzati).

L’obiettivo del testo appena rilasciato dall’agenzia è quello di completare i precedenti documenti sul tema, affrontandone alcune tecniche avanzate.

Anzitutto l’ente sottolinea come non ci sia una tecnica buona per qualunque contesto e situazione, bisogna effettuare un’analisi caso per caso per scegliere la migliore opzione possibile.

Inoltre, le varie tecniche potrebbero doversi combinare con altre misure di protezione, a seconda dei risultati della valutazione dei rischi.

L’ENISA non dimentica di incentivare le stesse autorità per la protezione dati personali, i vari garanti europei (EDPB e EDPS) e la Commissione Europea a promuovere guide ed esemplificazioni ulteriori, rivolgendosi anche alle istituzioni.

Il tema è peraltro di grandissima attualità se ne pensiamo l’applicazione ai trasferimenti extra-UE, dopo il caso Schrems II, quali strumenti per poter attuare una migliore protezione dei dati esportati in Paesi non adeguati.

Tramite i suoi esempi l’agenzia riesce a far comprendere meglio la nozione di dato pseudonimizzato, in quanto dato che può non essere rivelatore ma che potrebbe diventarlo nel contesto di un dataset più ampio.

Tecniche di base

L’ente anzitutto distingue sei differenti scenari, ripresi dai precedenti documenti sulle medesime tecniche, distinguendo anche i casi in cui vi siano terzi (ad es. un responsabile del trattamento) in gioco. Dopodiché vengono riassunte sei tecniche considerate di base, come ad es. la generazione numerica randomizzata, la funzione crittografica di hash, la crittografia simmetrica. Tali tecniche sono state trattate nelle precedenti pubblicazioni dell’ENISA summenzionate, a cui rimandiamo per approfondimenti.

Tecniche avanzate

Questo documento, invece, vuole consigliare alcune soluzioni più complesse, al fine di ottenere una minimizzazione dei rischi nel trattamento dei dati, in particolare nel caso di eventuali data breach, in scenari complessi e delicati.

Si tratta di sette tecniche avanzate:

crittografia asimmetrica: rispetto a quella simmetrica, sono coinvolti due soggetti nel processo di pseudonimizzazione, utilizzanti due chiavi diverse (pubblica e privata) per decifrare la pseudonimizzazione e così non richiedendo la condivisione delle medesime informazioni tra più soggetti;
firme ad anello (ring signature) e pseudonimi di gruppo (group pseudonyms): si tratta di firme digitali in cui il firmatario non è distinguibile entro un determinato gruppo (nel primo caso), oppure della creazione di uno pseudonimo quando due soggetti si incontrano (nel secondo caso, applicato ad es. nel contact tracing della Covid-19);
modalità di concatenazione (chaining mode): poiché una funzione di hash non garantisce un’appropriata pseudonimizzazione, si sono sviluppare concatenazioni di più funzioni di hash;
pseudonimi basati su identificativi multipli o attributi: rispetto al tradizionale rapporto uno-a-uno della pseudonimizzazione (a un identificativo corrisponde uno pseudonimo), tecniche più avanzate processano più identificativi (rapporto molti-a-uno);
pseudonimi con prova della titolarità: l’uso della pseudonimizzazione può ostacolare determinate attività (ad es. l’esercizio dei diritti degli interessati riguardo a dati che il titolare può utilizzare solo come pseudonimizzati, non riuscendo a provarne l’attribuzione a quell’interessato), alcune tecniche permettono di verificare che gli pseudonimi siano nascosti (il titolare non è in grado di desumere informazioni dal dato) ma vincolanti (non deve essere possibile trovare un altro identificativo associato allo pseudonimo);
computazione multiparte sicura (MPC): è un protocollo in grado di permettere a più parti di effettuare computazioni congiunte di una funzione, basata su dati di partenza (input) segreti da una parte verso l’altra, di cui viene rese noto a tutte solo l’output finale;
schemi di condivisione segreta (secret sharing): basati sui protocolli MPC, suddividono il dato da mantenere segreto in più parti o segmenti.

Misure di pseudonimizzazione nel settore sanitario

Nel settore sanitario la tutela dei dati coinvolti è estremamente delicata, non solo perché si tratta di dati particolari relativi alle condizioni di salute dei pazienti nell’ambito di cure mediche, ma anche per il loro importante contributo alla ricerca scientifica. Uno dei punti critici di trattamento è il fatto che le varie figure coinvolte dovrebbero avere accesso solo a determinate porzioni di dati, non al loro insieme.

Ad esempio, un’assicurazione sanitaria non dovrebbe avere accesso ai dettagli sulle precise diagnosi o alla cronologia sanitaria di un determinato paziente, non pertinenti all’attività assicurativa.

Così come la ricerca medica dovrebbe avere accesso solamente a informazioni basilari sul fatto che il paziente sia stato trattato con una determinata cura oppure no, non dovendo accedere ai dati identificativi del paziente stesso o a dettagli ultronei.

Vengono dunque in soccorso le tecniche di pseudonimizzazione nel segmentare l’accesso dei dati a vari soggetti per le rispettive, lecite finalità.

Il documento procede esemplificandone l’applicazione a vari scenari, uno dei più interessanti è quello della comparazione tra più ospedali di dati relativi al medesimo paziente, ovvero con dati custoditi in server e luoghi differenti, per verificare che entrambi i dataset siano aggiornati.

Senza l’utilizzo della pseudonimizzazione sarebbe necessario rivelare tutti i dati del primo ospedale al secondo, per poter effettuare una comparazione e aggiornare quanto necessario.

Nel documento si propone, d’altro canto, di utilizzare una tecnica di hash concatenata su tre livelli per prevenire la rivelazione indebita di dati: saranno gli hash a essere comparati, non i dati stessi in chiaro.

Ovviamente dovranno essere rispettati alcuni presupposti, come il fatto che i dati siano registrati nello stesso formato testuale – anche un piccolo cambiamento genererebbe hash diversi e quindi segnalerebbe un disallineamento dei dati non reale.

Misure di pseudonimizzazione nel settore cyber security

Le tecniche di cyber sicurezza devono tenere conto sempre più non di sistemi statici – basati su protezioni come malware “firmati” digitalmente e così riconosciuti dagli antivirus – bensì su un’analisi dinamica telemetrica, applicabile ad es. attraverso il machine learning, la modellazione di minacce su base comportamentale e via dicendo.

Il vasto corpus di dati necessario per effettuare questo tipo di analisi è definito appunto “telemetria”, necessario per poter svolgere correlazioni e training.

La raccolta dei dati deve essere basata su casi reali per garantire l’efficienza della difesa finale, ad es. attraverso piattaforme condivise crowd-sourced. La raccolta dei dati appena detti comporta il consenso dell’utente che li fornisce: pensiamo all’utente di un software che accetta di partecipare al programma di raccolta dei dati telemetrici, allo scopo di migliorare la capacità complessiva della comunità di security – oltre che della software house – di riconoscere le minacce e studiare le relative protezioni.

Le tecniche di pseudonimizzazione entrano in gioco nel garantire che siano utilizzati solamente i dati necessari per i predetti fini di sicurezza e non altri, senza che sia necessario identificare l’utente che li ha forniti.

Il documento ENISA analizza il caso di un sistema basato sulla reputazione – ovvero l’assegnare un punteggio reputazionale a una determinata entità (come un file o un sito web) -, raccogliendo e correlando i dati telemetrici relativi alla sicurezza di tali entità, analizzati mediante machine learning.

Un altro caso analizzato è quello dell’applicazione nell’ambito del customer support ad es. di un’azienda: si lascia aperta la possibilità di intervenire con un’azione effettiva e soddisfacente di supporto al cliente e di crisis management, con l’uso di dati in chiaro, solo quando necessario, ad es. se dall’analisi di determinati dati e comportamenti pseudonimizzati sorge il sospetto di una minaccia alla sicurezza.

Conclusioni

Come si può evincere da queste semplici indicazioni il documento dell’ENISA non è di facile lettura per tutti, alcuni passaggi sono piuttosto tecnici.

Tuttavia, costituisce comunque una fonte preziosa di scenari e approfondimenti che permettono a chi lavora nel settore di comprendere meglio determinate logiche e possibilità applicative di tecniche altrimenti ignorate, vuoi per la loro complessità che per l’opacità di applicazione.

L’incremento nell’uso di tecniche di pseudonimizzazione si estenderà da parte di soggetti non così complessi e strutturati, dietro una crescente offerta dei vendor (non affrontati nel documento in parola). Permettendo una sempre miglior e più estesa minimizzazione dei dati nei vari contesti, oltre a una robusta protezione verso i rischi sempre più frequenti nella società dell’informazione.

Al termine del suo documento l’ENISA ribadisce come non ci sia una soluzione ideale per tutto e tutti, bensì come vadano valutati – in un contesto interdisciplinare – le variabili in gioco, il contesto, l’utilità, la scalabilità, la possibile implementazione tecnica e non da ultimo anche i costi: presupposto fondamentale è però il comprendere tali tecniche, da qui il pregiato contributo dell’agenzia.

NOTE

Si veda il Considerando 26 del GDPR: “È auspicabile applicare i principi di protezione dei dati a tutte le informazioni relative a una persona fisica identificata o identificabile. I dati personali sottoposti a pseudonimizzazione, i quali potrebbero essere attribuiti a una persona fisica mediante l’utilizzo di ulteriori informazioni, dovrebbero essere considerati informazioni su una persona fisica identificabile. Per stabilire l’identificabilità di una persona è opportuno considerare tutti i mezzi, come l’individuazione, di cui il titolare del trattamento o un terzo può ragionevolmente avvalersi per identificare detta persona fisica direttamente o indirettamente. Per accertare la ragionevole probabilità di utilizzo dei mezzi per identificare la persona fisica, si dovrebbe prendere in considerazione l’insieme dei fattori obiettivi, tra cui i costi e il tempo necessario per l’identificazione, tenendo conto sia delle tecnologie disponibili al momento del trattamento, sia degli sviluppi tecnologici. I principi di protezione dei dati non dovrebbero pertanto applicarsi a informazioni anonime, vale a dire informazioni che non si riferiscono a una persona fisica identificata o identificabile o a dati personali resi sufficientemente anonimi da impedire o da non consentire più l’identificazione dell’interessato. Il presente regolamento non si applica pertanto al trattamento di tali informazioni anonime, anche per finalità statistiche o di ricerca”. ↑
Si vedano i Considerando 78, 156, oltre agli articoli 6, 25, 32, 40 e 89 del GDPR. ↑