Un recente provvedimento del Garante privacy su dati sanitari e il progetto Thin sembra invocare una posizione rigorista in materia di pseudonomizzazione e anonimizzazione dei dati personali, in controtendenza alle prospettive evolutive manifestate dal Tribunale dell’Unione Europea.
A pochi mesi dalla piena efficacia del Digital Governance Act che fonda le possibilità di riuso dei dati grazie alle tecniche di pseudonomizzazione e/o di anonimizzazione, gli operatori possono risultare disorientati. Proviamo a fare il punto.
Dati sanitari, il Garante privacy chiarisce quando è vera anonimizzazione
Indice degli argomenti
Il provvedimento del Garante su dati sanitari
La newsletter del Garante Privacy del 27 luglio 2023 dà notizia di un provvedimento emanato in relazione al trattamento di dati sanitari che, a detta della Società, erano anonimi e che, a detta del Garante, sono da considerare pseudoanonimi e quindi soggetti ai principi e gli obblighi previsti dal GDPR.
La vicenda è interessante perché sulla natura del dato (anonimo o pseudoanonimo) si gioca l’applicabilità del Regolamento e dei suoi principi. Tale demarcazione è destinata ad assumere rilevanza in vista dello sviluppo del Digital Single Market, al punto che i nuovi pacchetti regolamentari, pur spingendo sulla condivisione e lo scambio dei dati al fine di sviluppare la creazione di un’economia dei dati, non forniscono indicazioni concrete, si limitano a rinviare al GDPR statuendo che per gli aspetti relativi alla protezione dei dati personali prevale il GDPR.
Un approccio estremamente rigorista, come quello mostrato dall’Autorità nel provvedimento del 1 giugno 2023, secondo il quale non è sufficiente che non sia possibile re-identificare l’interessato ma è necessario anche che non sia possibile svolgere l’analisi longitudinale dell’informazione (ovvero esaminarne l’evoluzione nel tempo), rischia di produrre tutta una serie di impatti sugli operatori che, fino a questo momento, hanno ritenuto di poter fare affidamento sulla natura anonima del dato.
Il provvedimento, infatti, riconosce la buona fede e la sensibilità al tema della protezione dei dati personali della Società destinataria del provvedimento che nelle sue difese aveva sottolineato come la metodologia utilizzata fosse in linea con gli standard internazionali del settore.
I Real World Data
Il provvedimento del Garante si colloca nell’ambito della ricerca scientifica e, in particolare, della formazione di archivi di c.d. Real World Data.
La Food and Drug Administration (FDA) del governo degli Stati Uniti, che è l’ente responsabile di vigilare sulla sicurezza e commerciabilità dei farmaci, definisce i Real World Data (RWD) come: “dati relativi allo stato di salute del paziente e/o alla fornitura di assistenza sanitaria regolarmente raccolti da una varietà di fonti. Esempi di RWD includono dati derivati da cartelle cliniche elettroniche, dati di richieste mediche, dati da registri di prodotti o malattie e dati raccolti da altre fonti (come le tecnologie sanitarie digitali) che possono informare sullo stato di salute.”[1]
Accanto ai RWD si collocano i Real World Evidence che, sempre la FDA, definisce come “le prove cliniche sull’uso e sui potenziali benefici o rischi di un prodotto medico derivate dall’analisi dei RWD”.
Il 23 giugno 2023, l’European Medicines Agency, EMA, ha pubblicato il report “Real-world evidence framework to support EU regulatory decision-making” e nella presentazione dello stesso sottolinea l’importanza dell’utilizzo di tali dati non solo in relazione agli studi preliminari, ma anche in quelli successivi per il monitoraggio degli impatti.
Infatti, tali dati offrono un supporto informativo integrativo e complementare rispetto ai dati delle sperimentazioni cliniche[2] e possono supportare i decisori nell’adozione dei propri provvedimenti. Ad esempio, proprio all’interno del medesimo report, l’EMA riconosce che nel corso della pandemia da Covid-19, i RWD sono stati fondamentali per monitorare la sicurezza e l’efficacia dei medicinali utilizzati nel contesto del Covid-19[3].
Tale report contiene una serie di raccomandazioni, tra cui quella di estendere le fonti di dati, consentendo l’acquisizione anche dalle fonti di cure secondarie nonché dalle bio-banche e dai registri relativi ai grandi sinistri.
L’importanza di tali dati, pertanto, è riconosciuta a livello internazionale in relazione dei benefici che tali informazioni apportano agli operatori sanitari, ai ricercatori, ai legislatori e regolatori e, non da ultimo, agli interessati che beneficiano di una gestione delle politiche sanitarie data-driven.
Non è un caso che tale aspetto emerge chiaramente dalla valutazione di impatto contenuta nella proposta di Regolamento Europeo sullo spazio europeo dei dati sanitari nella quale la Commissione riporta i risultati emersi dallo studio “Valutazione delle norme degli Stati membri dell’UE sui dati sanitari alla luce dell’RGPD” da cui emerge che “è stata effettuata anche un’indagine tra i portatori di interessi per una convalida incrociata e un’integrazione dei temi affrontati e individuati. In totale sono state ricevute 543 risposte nel quadro del sondaggio online. Il 73 % dei rispondenti del sondaggio online ritiene che la possibilità di disporre di dati sanitari in uno spazio di dati personali o un portale per i pazienti faciliti la trasmissione dei dati tra i prestatori di assistenza sanitaria. Inoltre l’87 % valuta che una mancanza di portabilità dei dati faccia aumentare i costi dell’assistenza sanitaria, mentre l’84 % ritiene che ritardi la diagnosi e le cure. Circa l’84 % è del parere che dovrebbero essere adottate ulteriori misure a livello di UE per rafforzare il controllo delle persone fisiche sui loro dati sanitari. Circa l’81 % considera che l’uso di differenti basi giuridiche dell’RGPD renda difficile la condivisione dei dati sanitari. Circa l’81% dei rispondenti suggerisce che l’UE dovrebbe sostenere l’uso secondario dei dati sanitari ai sensi della medesima base giuridica”.[4]
Da queste premesse è chiaro che poter contare su archivi di dati sanitari anonimi, semplifica di molto gli adempimenti degli utilizzatori di tali informazioni per finalità di ricerca scientifica che non sono direttamente interessati al singolo paziente, quanto al decorso della malattia, al funzionamento delle terapie e/o agli impatti delle azioni di politica sanitaria attraverso l’osservazione di dati che vengono dal mondo reale e non si basano su ipotesi di laboratorio. Non è un caso che l’EMA ne riconosca la funzione di supporto ai risultati derivanti dalle sperimentazioni cliniche.
Gli impatti sugli altri settori
Naturalmente, non sono solo la sanità e la ricerca scientifica ad essere data-driven. Infatti, la costruzione di un ecosistema che incentivi la condivisione, lo scambio e il riutilizzo di dati è al centro delle politiche dell’Unione Europea e dei suoi nuovi pacchetti regolamentari su cui questa pronuncia è in grado di produrre una serie di effetti.
Il primo impatto, infatti, potremmo averlo sul Reg. UE 2022/868, il Data Governance Act (DGA), entrato in vigore il 3 luglio 2022 e pienamente applicabile dal 24 settembre 2023.
Il considerando 4 DGA precisa che il regolamento lascia impregiudicati il GDPR, il corrispondente regolamento sul trattamento dei dati personali da parte delle istituzioni europee (Reg 2018/1725), nonché la direttiva E-privacy e la direttiva 2016/680 sul trattamento dei dati personali da parte delle Autorità per finalità di prevenzione e contrasto di reati nonché per l’esecuzione delle sanzioni penali e ciò “anche qualora i dati personali e non personali di una serie di dati siano indissolubilmente legati.”
Il medesimo considerando chiarisce che il DGA “non dovrebbe intendersi, in particolare, come creazione di una nuova base giuridica per il trattamento dei dati personali per nessuna delle attività regolamentate, né come modifica dei requisiti in materia di informazione stabiliti nel regolamento (UE) 2016/679”.
Inoltre, viene disposto che in caso di conflitto tra il DGA e la normativa europea o nazionale in materia di protezione dei dati personali, prevale quest’ultima.
Pertanto, chi volesse offrire servizi di intermediazione di dati (o usufruirne), nonché gli enti pubblici che volessero autorizzare il riutilizzo, dovrebbero verificare se si verte in caso di dati anonimi o pseudoanonimi al fine di mettere in piedi i corretti adempienti.
Analogamente, la proposta di Regolamento riguardante le norme armonizzate sull’accesso ai dati e il loro riutilizzo, il c.d. Data Act, prevede in relazione ai dati personali che “Il trattamento di tali dati è soggetto alle norme stabilite ai sensi del regolamento (UE) 2016/679, anche qualora i dati personali e non personali all’interno di un insieme di dati siano indissolubilmente legati”.
(Considerando 30) Precisa, altresì, che laddove il soggetto che accede ai dati non è l’interessato, questi è un titolare del trattamento e, in quanto tale, deve avere una base giuridica per il trattamento e fornire le informazioni all’interessato.
L’articolo 10 par. 5 della proposta di Regolamento sull’Intelligenza Artificiale in relazione ai Dati e la governance dei dati prevede la possibilità per i fornitori dei sistemi di AI di utilizzare dati particolari, ai sensi dell’art. 9 GDPR, nella misura in cui ciò sia strettamente necessario al fine di garantire il monitoraggio, il rilevamento e la correzione delle distorsioni in relazione ai sistemi di IA ad alto rischio, misure come la pseudonimizzazione o la cifratura, solo qualora l’anonimizzazione possa incidere significativamente sulla finalità perseguita.
L’insieme di queste previsioni fa emergere l’importanza fondamentale per gli operatori del settore di poter far affidamento sulle tecniche di anonimizzazione implementate nei progetti che andranno ad essere toccati dalle nuove normative.
Considerato che, infatti, i Regolamenti affidano alle Autorità di controllo in materia di protezione dei dati personali la vigilanza sulla conformità dei requisiti di compliance per ciò che concerne il trattamento di dati personali e non personali indissolubilmente legati, il provvedimento del 1 giugno può essere visto come l’apripista di un filone di indagine delle Autorità di controllo su una serie di settori (non solo sanitari, il Data Act fa riferimento all’Internet of Things, per esempio) che finora sono stati oggetto di indagine marginale da parte delle Autorità di controllo.
Dati anonimi o pseudonimi?
Il considerando 26 GDPR è l’architrave interpretativo, la bussola da cui partire per comprendere se il dato è anonimo o meno. Viene infatti disposto che i principi della protezione dei dati si applicano ai dati pseudonimi, in quanto l’interessato potrebbe essere identificato mediante l’utilizzo di informazioni ulteriori.
L’identificabilità della persona fisica deve essere dedotta, secondo il considerando 26, valutando tutti i mezzi, come l’individuazione, di cui il titolare del trattamento o un terzo può ragionevolmente avvalersi per identificare detta persona fisica direttamente o indirettamente.
In altre parole, il considerando 26 richiede all’interprete di determinare la probabilità di re-identificazione sulla base di fattori obiettivi, tra cui i costi e il tempo necessario per l’identificazione, tenendo conto sia delle tecnologie disponibili al momento del trattamento, sia degli sviluppi tecnologici.
Viene precisato anche che: “I principi di protezione dei dati non dovrebbero pertanto applicarsi a informazioni anonime, vale a dire informazioni che non si riferiscono a una persona fisica identificata o identificabile o a dati personali resi sufficientemente anonimi da impedire o da non consentire più l’identificazione dell’interessato. Il presente regolamento non si applica pertanto al trattamento di tali informazioni anonime, anche per finalità statistiche o di ricerca.”
Ma quando un dato è sufficientemente anonimo?
Il Working Party Art.29 (oggi sostituito dall’European Data Protection Board, EDPB) nel parere 05/2014 sulle tecniche di anonimizzazione aveva chiarito che non è sufficiente eliminare gli identificatori diretti (nome, cognome) affinché i dati siano considerati anonimi, ma è necessario adottare misure supplementari volte ad impedire l’identificazione, a seconda del contesto e degli scopi del trattamento cui sono destinati i dati anonimizzati[5].
In più parti del Parere viene ribadito che non esiste una regola generale e unica per tutti i trattamenti, ma che dalla combinazione di tecniche di anonimizzazione è necessario raggiungere l’effetto di impedire l’identificazione dell’interessato affinché il dato sia sufficientemente anonimo.
Le tecniche di anonimizzazione elencate dal WP29 rientrano nelle famiglie della randomizzazione e della generalizzazione e mirano a scongiurare i rischi di:
- individuazione, ovvero di riuscire a isolare alcuni o tutti i dati che identificano una persona all’interno dell’insieme di dati;
- correlabilità, vale a dire la possibilità di collegare almeno due dati concernenti la medesima persona interessata o un gruppo di persone interessate;
- deduzione, vale a dire la possibilità di desumere, con un alto grado di probabilità, il valore di un attributo dai valori di un insieme di altri attributi.
Il Gruppo di lavoro analizza le tecniche rientranti nelle due famiglie sottolineando in più punti che “le tecniche di deidentificazione e di anonimizzazione sono oggetto di ricerca continua e che tale ricerca ha ripetutamente dimostrato che nessuna tecnica è di per sé esente da carenze.” Inoltre, il parere è chiuso da un approfondimento sulle tecniche di pseudonimizzazione che spesso vengono associate alle tecniche di anonimizzazione, quali strumenti di de-identificazione dell’interessato per ridurre il rischio di individuazione.
Sul punto il WP29 elenca una serie di errori commessi dalle organizzazioni che si avvalgono di tali tecniche, quali, ad esempio: “Ritenere che un insieme di dati pseudonimizzati sia anonimizzato: spesso i responsabili del trattamento presumono che eliminare o sostituire uno o più attributi sia sufficiente per rendere anonimo un insieme di dati. Molti esempi hanno dimostrato l’erroneità di tale convinzione; la semplice modifica dell’identità non impedisce l’identificazione di una persona interessata se l’insieme di dati continua a contenere quasi-identificatori o se i valori di altri attributi consentono comunque di identificare una persona. In molti casi identificare una persona all’interno di un insieme di dati pseudonimizzato può essere facile come con i dati originali. Occorre adottare misure supplementari per poter considerare l’insieme di dati effettivamente anonimizzato, tra cui l’eliminazione e la generalizzazione degli attributi o la cancellazione dei dati originali o almeno la loro estrema aggregazione.”
In altre parole, il WP29 non esclude che da una tecnica di pseudonimizzazione si possa generare un database effettivamente anonimizzato proprio grazie all’eliminazione degli attributi identificativi, la loro generalizzazione o estrema aggregazione. La struttura della frase suggerisce che queste misure, da valutare caso per caso, siano alternative tra loro e che l’obiettivo sia quello di raggiungere il risultato di ridurre ragionevolemente i tre rischi di identificazione, correlabilità e deduzione.
La posizione della giurisprudenza
Una simile ricostruzione, del resto, sembra essere avallata dalla giurisprudenza europea. Da ultimo, la sentenza del Tribunale dell’Unione Europea nel caso T-557/20 che ha annullato una sanzione irrogata dall’EDPS nei confronti del Comitato di Risoluzione Unico delle crisi bancarie.
Nel caso di specie, era necessario svolgere delle analisi sulle risposte a una serie di questionari e pur non identificando gli interessati era necessario ricondurre le risposte al singolo questionario per poter consentire eventuali controlli in caso di contestazioni.
La sentenza richiama i principi già statuiti dalla Corte di Giustizia nella sentenza Breyer[6] sull’IP dinamico nella quale viene disposto il principio che il dato è personale, e non anonimo, laddove il soggetto (l’Internet Provider) ha delle informazioni aggiuntive che consentono di identificare l’interessato. Nella stessa sentenza viene chiarito che, invece, il medesimo dato può essere anonimo per il service provider che non possiede quelle informazioni aggiuntive.
Sulla base di questa giurisprudenza, il Tribunale afferma che nel caso di specie l’EDPS non aveva valutato se il terzo che doveva analizzare i questionari disponeva delle informazioni aggiuntive che permettevano di identificare l’interessato e, di conseguenza, annulla la sanzione.
Quali indicazioni per gli operatori?
Come visto, sia la giurisprudenza sia la soft-law del WP29 prevedono delle valutazioni da effettuare caso per caso alla luce delle caratteristiche del set di dati, delle finalità sottese all’utilizzo e delle tecniche di anonimizzazione implementate.
Per gli operatori che rientrano nel campo di applicazione del DGA, si ricorda che:
- L’art. 5 DGA prevede per gli Enti pubblici che consentono il riutilizzo devono garantire l’anonimizzazione del dato e verificarla periodicamente. Pertanto, sarà importante:
- Individuare le tecniche idonee di anonimizzazione;
- Verificare il rischio di re-identificazione e i possibili impatti sugli interessati, secondo un perimetro che è leggermente diverso da quello della valutazione di impatto prevista dall’art. 35 GDPR.
- L’art. 12 lett. e) DGA prevede per i fornitori di servizi di intermediazione dei dati la possibilità di offrire “strumenti e servizi supplementari specifici ai titolari dei dati o agli interessati allo scopo specifico di facilitare lo scambio dei dati, come la conservazione temporanea, la cura, la conversione, l’anonimizzazione e la pseudonimizzazione, fermo restando che tali strumenti e servizi sono utilizzati solo su richiesta o approvazione esplicita del titolare dei dati o dell’interessato e gli strumenti di terzi offerti in tale contesto non utilizzano i dati per altri scopi”
Per gli operatori che rientreranno nel campo di applicazione del Data Act e sul Regolamento AI, alcune riflessioni potrebbero cambiare alla luce delle versioni che verranno approvate in via definitiva, ma sulla base delle proposte in discussione è possibile prevedere quanto segue.
In relazione alla proposta di Data Act, l’art. 20 DA prevede che il titolare dei dati possa chiedere un compenso che copra i costi di anonimizzazione o pseudonimizzazione laddove metta i dati a disposizione dell’Autorità in caso di assoluta necessità e di specifiche finalità di utilizzo. Considerando gli obblighi di conformità in capo alle Autorità che, viceversa, chiederanno l’accesso ai dati, sarà necessario essere in grado di dimostrare la necessità, le finalità limitate, le garanzie per gli interessati e la scelta sulla richiesta di dati anonimi o pseudonimi, magari chiedendo una verifica in relazione al grado di anonimizzazione per essere in grado di comprovare la corrispondenza tra quanto richiesto, quanto ottenuto e quanto eventualmente rimborsato.
Per i fornitori di sistemi di AI ad alto rischio, la proposta di regolamento prevede tutta una serie di valutazioni e adempimenti in relazione alle quali è possibile integrare le verifiche in relazione alla tipologia di set di dati utilizzati per l’addestramento o il controllo degli algoritmi.
Ciò per quanto riguarda l’accountability degli operatori, siano essi titolari del trattamento, titolari dei dati o fornitori dei sistemi di AI.
Al tempo stesso, ci si auspica da parte delle Autorità di controllo, dell’EDPB o dalla Commissione, delle indicazioni precise, magari all’interno dei provvedimenti che via via verranno implementati, su cosa è considerata un’anonimizzazione ragionevole e cosa non lo è con motivazioni un po’ più argomentate, soprattutto in casi con lunghe istruttorie e in cui la Società rivendica di essere conforme agli standard del settore.
È indubbio, infatti, che se in alcuni settori, come ad esempio il marketing, si sono diffuse delle prassi virtuose e gli operatori hanno avuto indicazioni su come impostare i processi in modo compliant, ciò è dipeso anche dalla serie di provvedimenti dettagliati che hanno esaminato i processi e indicato dove gli operatori sbagliavano.
Note
[1] https://www.fda.gov/science-research/science-and-research-special-topics/real-world-evidence
[2] https://www.ema.europa.eu/en/news/use-real-world-evidence-regulatory-decision-making-ema-publishes-review-its-studies
[3] https://www.ema.europa.eu/en/documents/report/real-world-evidence-framework-support-eu-regulatory-decision-making-report-experience-gained_en.pdf
[4] Pag. 13 https://eur-lex.europa.eu/resource.html?uri=cellar:dbfd8974-cb79-11ec-b6f4-01aa75ed71a1.0007.02/DOC_1&format=PDF
[5] V.d. pag. 10 Parere WP29 5/2014 “Un’efficace soluzione di anonimizzazione impedisce a tutte le parti di identificare una persona in un insieme di dati, di collegare due dati all’interno di un insieme di dati (o tra due insiemi distinti di dati) e di dedurre informazioni da tale insieme di dati. In generale, eliminare elementi direttamente identificanti non è pertanto di per sé sufficiente a garantire che l’identificazione della persona interessata non sia più possibile. Spesso è necessario adottare misure supplementari per prevenire l’identificazione, ancora una volta a seconda del contesto e degli scopi del trattamento cui sono destinati i dati resi anonimi.”
[6] Cfr. sentenza del 19 ottobre 2016, Breyer, C-582/14, EU:C:2016:779