Nella corsa attuale allo sfruttamento dei dati alcune imprese si stanno evolvendo per trattare sì i dati dei consumatori ma sempre meno usandoli “in chiaro”: più “dati” ma meno “personali”, magari condividendoli con aziende terze in modalità che ne garantiscano sia la riservatezza che un loro valore di business: simili operazioni di data marketplace si stanno sviluppando in altri settori, ad es. bancario, assicurativo e IoT, per mettere a fattor comune i propri database “estraendone” valore aggiunto e il segreto risiederebbe nell’uso di tecniche di pseudonimizzazione applicate ai dati nel pieno rispetto del GDPR.
Un esempio recente è il colosso delle telecomunicazioni austriache, A1 Telekom Austria, il quale ha sviluppato in due anni di R&D una metodologia proprietaria di pseudonimizzazione dei dati dei propri clienti: ora partecipa al data marketplace HERE, gestito dalla HERE Global BV, leader nelle tecnologie automobilistiche.
La compagnia condivide dati di localizzazione aggregati in gruppi di 20 o più interessati, riducendo il rischio che si possa identificare uno qualsiasi di tali interessati. Senza violare – lo certificherebbe il TÜV – le normative di data protection, proprio grazie alle tecniche di “mascheramento” dei dati.
Quindi la domanda sorge spontanea e lecita: perché tali tecniche di pseudonimizzazione non sono così diffuse in Italia, allo scoccare del 2021? Perché l’uso è così limitato? Quali difficoltà ostano alla loro diffusione?
Indice degli argomenti
Pseudonimizzazione e GDPR: il dato in maschera
Non è la sede per affrontare qui i concetti di base della pseudonimizzazione, rimandiamo per questo ad altri contributi. Ricordiamo che è lo stesso GDPR a prevederla nel testo, definendola all’art. 4 n. 5[1]. E che ai sensi dello stesso GDPR i dati pseudonimizzati – cioè i dati identificativi in qualche modo trasformati in altri dati, pseudonimi, in modo tale da poter ritornare ai dati di partenza sapendo quale sia la “chiave” dell’operazione iniziale – sono ritenuti dati personali ex lege e andranno trattati come tali dal titolare.
Nella scala tra dato identificativo e dato anonimo la pseudonimizzazione si colloca nel mezzo, con relative ambiguità.
Il WP29 nel suo parere 5/2014 precisa che “si limita a ridurre la correlabilità di un insieme di dati all’identità originaria di una persona interessata, e rappresenta pertanto una misura di sicurezza utile” e che “un rischio specifico consiste nel considerare i dati pseudonimizzati equivalenti ai dati resi anonimi. La sezione relativa all’analisi tecnica precisa che i dati pseudonimizzati non possono essere equiparati a informazioni rese anonime, in quanto continuano a permettere l’identificazione delle singole persone e le rendono trasversalmente collegabili a diversi insiemi di dati”.
Un’ulteriore precisazione: non esiste una tecnica di pseudonimizzazione, bensì più possibili tecniche, alternative o in combinazione, per arrivare al risultato dei dati pseudonimi.
Un esempio ne sono le forme di aggregazione, oppure di scrambling dei dati, preordinate al mascheramento o alla limitazione dell’uso improprio dell’identità degli interessati. Vi ritroviamo la crittografia simmetrica, l’hashing e la tokenizzazione – nella prassi, invece, se ne sente da più parti discutere come di tecniche di anonimizzazione.
La situazione di avvenuta pseudonimizzazione può essere asimmetrica nel caso di rapporto con terzi: il dato pseudonimo resterebbe dato personale per il titolare, che detiene la chiave, mentre sarebbe anonimo per il terzo (ammesso che non abbia accesso alla chiave di codifica o che non possa risalirvi altrimenti, ad es. incrociando i dati pseudonimi con altri). Se il titolare cancellasse la chiave, anche per esso i dati diventerebbero anonimi, sempre che non potesse re-identificarli con informazioni aggiuntive.
Le aree di maggior applicazione
Gli ambiti di idonea applicazione di queste tecniche sono tantissimi: dal sanitario alla ricerca medica (si pensi ai dati di pazienti utilizzati per aggregazioni statistiche), dal marketing alla profilazione (si pensi alla mascheratura dell’IP utente tuttora richiesta dal Garante per i cookie di terze parti, oppure all’analisi predittiva), dalla cybersecurity alla sicurezza del software (ad es. per le segnalazioni utente), dei servizi in cloud, dell’IA (i dataset pseudonimizzati possono essere usati per il machine learning), dall’analisi statistica all’uso commerciale nei citati data marketplace.
Senza parlare dei vari ambiti in cui lo stesso GDPR richiama la misura in esame: sicurezza dei dati e riduzione dei rischi, privacy by design e by default, codici di condotta, trattamenti per fini di archiviazione nel pubblico interesse, di ricerca scientifica o storica o a fini statistici, oltre all’attualissimo tema del trasferimento dei dati in Paesi extra-UE nel post-Schrems II.
Insomma, si parla di uno strumento focale per il rispetto della protezione dei dati, oltre che di sviluppo di potenziali aree di data business e di pubblico interesse.
Un campo ulteriore è quello della protezione della riservatezza informativa aziendale, ad es. sottoponendo documenti e progetti riservati a terzi per una valutazione che non scopra determinate carte, specie quando un NDA potrebbe non essere ritenuto sufficientemente tutelante.
Non ultimo rappresenta una efficace tecnica di “estinzione” dei dati: se negli archivi i dati sono tutti pseudonimizzati, arrivati al temine di conservazione invece di cancellarli (operazione non sempre facile da attuare nel digitale, specie in relazione a determinati supporti, a dati riprodotti più volte in più contesti e backup, ecc.) basterà cancellare definitivamente, più semplicemente, la sola chiave di cifratura, i quali potranno restare dove si trovano.
Questa breve panoramica fa pensare e tornare alle domande iniziali: visti i tanti vantaggi, perché si stenta a trovarne diffusi esempi nella realtà locale attuale?
Pseudonimizzazione e GDPR: i 10 principali problemi applicativi
Le ragioni della situazione odierna sono molteplici, toccano vari profili, dall’imprenditoriale al tecnico. Senza pretese di esaustività offriamo di seguito qualche spunto, influenzato peraltro dalle importanti riflessioni di due esperti come Giuseppe D’Acquisto e Maurizio Naldi[2]:
- scarsa conoscenza aziendale e diffusione culturale: in una realtà dove i temi di privacy by design e by default sono visti ancora come pioneristici, l’uso di tecniche più complesse e che si innestano proprio in una riflessione dell’intero ciclo di vita dei dati pare un vero salto nell’ignoto; il fatto che sia un tema tecnico, non certo sbattuto in prima pagina non solo dalla stampa generalista ma anche da diverse pubblicazioni specialistiche e per professionisti, non aiuta; forse una radice più profonda si innesta nella scarsa cultura matematica, logica e più generalmente scientifica del nostro Paese, tutti presupposti essenziali per capire e maneggiare il tema anche da parte del management che deve decidere in merito; una spinta potrà venire dai futuri codici di condotta, per ora scarsamente diffusi, quando prescriveranno determinate misure di pseudonimizzazione favorendone anche la conoscibilità;
- investimenti: perlopiù organizzativi ma non solo, sono spesso visti come superflui in un’ottica di breve respiro, senza la lungimiranza a cui mira il framework del GDPR; la considerazione, valida non solo per il tema in parola, che un investimento saggio oggi farà risparmiare domani, un domani in cui si potranno apprezzare maggiormente i risultati, si ricollega al punto precedente; gli investimenti nella correlata sicurezza informatica, in un Paese di MPMI, pur in crescita, paiono ancora ridotti rispetto alle attese;
- alternative (apparentemente) più semplici: a fronte delle complessità della pseudonimizzazione, un titolare che non abbia vincoli specifici può ritenere sia preferibile – drasticamente – pensare per estremi, cioè di trattare un dato solo quando sia identificativo oppure di non usarlo affatto; la riduzione di complessità è evidente, tuttavia restringe il perimetro d’uso in modo tale da non permetterne tanti potenziali utilizzi (si pensi ai data marketplace menzionati sopra) e lasciando scoperti i rischi d’uso per i dati in chiaro;
- vendor: la platea di offerte risente da una parte, per determinate soluzioni, di non essere ancora così estesa e sviluppata oltre alle soluzioni più basilari (pensiamo ad es. a prodotti efficaci di crittografia omomorfica per poter manipolare dati crittografati lasciandoli tali): l’integrazione coi sistemi aziendali esistenti può essere più macchinosa che pluggable, richiedendo una customizzazione non sempre facilmente accoglibile (non ultimo per i costi); dall’altra parte – ricollegandoci al primo punto visto sopra – non è detto che i clienti siano sempre in grado di comprendere appieno i servizi offerti e i vendor di spiegarne funzionamento e vantaggi in maniera idonea, l’impressione è che su vari temi si soffra di una pletora di offerte confuse tra cui le aziende faticano sovente ad orientarsi;
- impatto aziendale: a seconda della tecnica utilizzata, potrebbe darsi mutamenti “traumatici” nella creazione e gestione dei database aziendali, ad es. nella loro forzata suddivisione in più dataset da collegare invece di quello unico a cui si è abituati da tempo; inoltre sono necessarie policy aziendali accurate e regolarmente riviste per l’utilizzo delle tecniche, scrupolosamente redatte e applicate dal personale debitamente formato, sommandosi a quelle già in vigore;
- rischi e sicurezza: è necessaria una sicurezza elevata a garanzia della chiave utilizzata (ad es. delle tabelle di conversione o della chiave di crittografia); ad es. se nel contesto si utilizzano più chiavi per comunicazioni crittografate simmetriche, il numero di chiavi cresce come il quadrato del numero di utenti, per tacere della diffusione e segretezza delle chiavi – la gestione di tale molteplicità potrebbe comportare paradossalmente nuovi o maggiori rischi per i dati pseudonimizzati; se si utilizzano le tecniche in parola per analisi di interessati, dovranno garantirsi l’irreversibilità della codifica e al contempo una corretta gestione del possibile impatto privacy (cioè che il dato mascherato sia comunque accurato per evitare erronee attribuzioni); inoltre sussistono i rischi impliciti in determinate operazioni e contesti (si rimanda ancora al parere WP29 del 2014), soprattutto condividendo i dati con terzi o addirittura pubblicandoli; da ultimo ricordiamo la minaccia incombente del quantum computing;
- sanzionabilità: non mancano provvedimenti delle autorità e del Garante che lamentano la mancata o scorretta applicazione di tali tecniche (ex multis si veda il provvedimento 17 settembre 2020 avverso un ospedale di Roma); ciò tuttavia non dovrebbe essere interpretato come un disincentivo a tali tecniche, bensì un incentivo ad applicarle nel migliore dei modi anche imparando dagli errori già compiuti da terzi – oltretutto in determinati protocolli propri ad es. del settore sanitario la pseudonimizzazione è obbligatoria, non opzionale; servirebbero, oltre alle sanzioni, degli incentivi per incoraggiare l’adozione delle misure in parola;
- complessità d’uso: non è sempre facile applicare efficacemente la pseudonimizzazione: a seconda del contesto, dei dati e dei soggetti coinvolti i fattori di complessità possono comportare un attento bilanciamento tra utilizzabilità e protezione del dato, con una progettazione di ampio respiro; ad es. se pensiamo alle tecniche di cifratura, la scelta dipende dall’algoritmo utilizzato e dal tipo di chiave; non a caso l’ENISA, nel suo recente report, ha analizzato tecniche avanzate che si rivelano necessarie per scenari ad elevata complessità, non essendo sufficienti le tecniche di base; lo stesso WP29 nel 2014 ne parlava “tenuto conto delle numerose convinzioni fallaci e degli errori che ne accompagnano l’utilizzo”: sono passati sette anni ma l’impressione è che non siano state superate molte asperità applicative e che un certo grado di fraintendimento avvolga la pseudonimizzazione;
- incertezze: la pseudonimizzazione comporta sempre e comunque dei rischi, non è facile garantire un sufficiente livello di sicurezza, comporta investimenti dal ritorno non facile da prefigurare, non esiste una metodologia unica, l’evoluzione tecnologica rimescola spesso le carte, latitano provvedimenti sanzionatori o codici di condotta che offrano maggiori punti fermi di valutazione; si ripete di solito che il mercato non apprezza l’incertezza e la rifugge, per cui quando si sarà maggiormente consolidato il quadro generale – dai punti più fermi a opera dei sanzionatori al successo applicativo di determinate tecniche più avanzate – è prevedibile una maggior diffusione;
- expertise: alla luce di quanto sopra, non ci si può improvvisare nell’utilizzare e implementare correttamente le tecniche anche non avanzate – sono necessarie competenza ed esperienza specifica, comprendendo i limiti, intrinseci e non, delle tecniche utilizzabili, la loro integrazione, i rispettivi punti di forza e debolezza, la capacità di effettuare valutazioni di impatto di tipo probabilistico e sull’accuratezza per una scelta tra le alternative possibili.
Conclusioni
Come visto, gli ostacoli sono molteplici, tuttavia il mercato estero pare avere più coraggio nello sviluppo della tecnica per aprirsi al mercato odierno, sempre più attento alla protezione globale dei dati.
Scontiamo l’usuale miopia nella ricerca, i fattori culturali che impediscono di pensare a tecniche come queste quali asset, quali investimenti, quali idea di futuro.
Non è ancora detta l’ultima parola: auspichiamo che nella transizione digitale e negli investimenti promessi in forza dei finanziamenti europei un occhio più attento lo si possa avere.
In tempi di Covid-19 e digitalizzazione, più o meno forzata, la diffusione della pseudonimizzazione rappresenta uno strumento possiamo dire di “sopravvivenza” digitale per chi fa impresa.
NOTE
- «Pseudonimizzazione»: il trattamento dei dati personali in modo tale che i dati personali non possano più essere attribuiti a un interessato specifico senza l’utilizzo di informazioni aggiuntive, a condizione che tali informazioni aggiuntive siano conservate separatamente e soggette a misure tecniche e organizzative intese a garantire che tali dati personali non siano attribuiti a una persona fisica identificata o identificabile”. ↑
- Si veda il prezioso loro volume “Big data e privacy by design”, Torino, 2017. ↑