Il National Institute of Standard and Technology (NIST) degli Stati Uniti ha pubblicato, lo scorso 11 dicembre, una prima versione delle nuove linee guida in materia di protezione della privacy: in particolare, queste disposizioni si basano sulla differential privacy (privacy differenziale), una delle tecnologie di miglioramento della privacy (Privacy-enhancing technologies, PET) più mature utilizzate nell’analisi dei dati.
Data Protection Engineering, come si fa il GDPR in pratica secondo Enisa
Indice degli argomenti
Cos’è la differential privacy
La differential privacy rappresenta un approccio alla gestione dei dati progettato per proteggere la privacy degli individui nel momento in cui è necessario analizzare o elaborare informazioni sensibili.
Essa consiste in un insieme di tecniche e principi matematici che consentono di effettuare analisi statistiche su dati senza rivelare informazioni personali o identificabili sugli individui ai quali tali dati afferiscono. Questo perché le query o le operazioni sui dati vengono elaborate in modo da garantire che le risposte siano influenzate in misura minima da un singolo individuo nel dataset.
Metodologia rilevante per la raccolta e l’analisi di dati sensibili
Questa metodologia è particolarmente rilevante in contesti in cui la raccolta e l’analisi dei dati sono sensibili dal punto di vista della privacy, come nel campo della sanità, delle politiche pubbliche o delle ricerche di mercato.
L’obiettivo della differential privacy è, quindi, da un lato garantire che i risultati delle analisi siano accurati e utilizzabili facendo in modo; dall’altro lato, che non sia possibile ricavare informazioni specifiche su singoli individui all’interno del dataset.
Da un punto di vista pratico è possibile ottenere tale risultato attraverso degli algoritmi che introducano un livello controllato di “rumore” o perturbazione nei dati, in modo da rendere più difficile l’identificazione di informazioni specifiche su singoli individui.
Questo livello di protezione della privacy è quantificato e gestito attraverso parametri matematici che determinano quanto rumore aggiungere ai risultati delle query senza compromettere significativamente l’accuratezza delle informazioni aggregate ottenute.
La privacy differenziale per proteggere i dati dall’IA
Promuovere la ricerca sulle PET come la privacy differenziale è proprio l’obiettivo del nuovo documento del NIST, denominato “Guidelines for Evaluating Differential Privacy Guarantees” (Linee guida per la valutazione delle garanzie di privacy differenziale).
In merito a tale tecnologia, una delle curatrici della pubblicazione, la responsabile del Programma di Ingegneria della Privacy del NIST Naomi Lefkovitz, ha dichiarato che, nonostante il concetto sia noto dal 2006, “i software commericali attualmente disponibili per la privacy differenziale sono ancora in fase di sviluppo e ci sono rischi di cui si dovrebbe essere consapevoli!”.
Uno di questi rischi è legato alla rapida crescita dell’intelligenza artificiale, che si affida a grandi insiemi di dati per addestrare i suoi modelli di apprendimento automatico.
Negli ultimi dieci anni, infatti, i ricercatori hanno dimostrato che è possibile ricostruire i dati su cui sono stati addestrati questi modelli. A questo proposito, secondo Lefkovitz, “la privacy differenziale è il miglior metodo che conosciamo per fornire una robusta protezione della privacy contro gli attacchi dopo che il modello è stato addestrato”.
Proprio per questo motivo, l’indagine sulla differential privacy è stata prevista dall’Ordine esecutivo sullo sviluppo e l’uso sicuro, protetto e affidabile dell’intelligenza artificiale promulgato dall’amministrazione Biden il 30 ottobre.
L’Ordine ha imposto infatti al NIST, entro 365 giorni dalla data di pubblicazione del Decreto, la creazione di linee guida per valutare l’efficacia delle protezioni garantite dalla privacy differenziale anche in relazione all’AI.
Linee guida del NIST sulla differential privacy
Circa un mese dopo questa richiesta, l’Istituto ha prodotto una prima bozza, in merito alla quale il NIST sta richiedendo dei commenti, che sarà possibile fornire per un periodo di 45 giorni, fino al 25 gennaio 2024. Questi commenti contribuiranno a una versione finale del documento, che sarà pubblicata successivamente nel 2024.
Il documento si presenta articolato in tre sezioni principali: la prima introduce il concetto di differential privacy e illustra i metodi che l’Istituto intende applicare per valutarne le misure messe in atto affinché sia garantita; la seconda affronta gli algoritmi che la implementano, approfondendo le modalità attraverso cui si potrà bilanciare la privacy e l’effettiva utilizzabilità dei dati, mentre la terza parte si concentra sull’implementazione pratica, tracciando una serie di modelli di minaccia e fornendo considerazioni sulla sicurezza.
Il documento è, inoltre, corredato da un archivio software interattivo per approfondire l’applicazione di questa tecnologia.
All’interno di tale bozza, i fattori presi in considerazione dal NIST al fine di fornire garanzie reali sulla privacy sono organizzati in una struttura piramidale.
In tale struttura, il livello di base afferisce al modo in cui i dati vengono raccolti, il livello intermedio affronta le potenziali minacce alla sicurezza, mentre in cima alla piramide si trova la misurazione della robustezza della privacy, simboleggiata dal valore epsilon.
All’interno di questo schema, la capacità di ogni componente della piramide di proteggere la privacy degli individui i cui dati fanno parte di un determinato dataset dipende dai livelli sottostanti. Allo stesso tempo, effettuare una valutazione dell’efficacia delle misure di privacy differenziale applicate richiede l’esame di ogni componente della piramide.
Privacy tech: le regole per investire nelle tecnologie dedicate alla protezione dei dati personali
Conclusioni
L’Istituto chiarisce che sebbene le nuove indicazioni siano progettate principalmente per le altre agenzie federali statunitensi, possono essere utilizzate da chiunque: sviluppatori software, proprietari di aziende o decisori politici.
Lefkovitz sottolinea infatti che uno degli obiettivi principali del documento è quello di rendere l’argomento comprensibile anche agli utenti che potrebbero non avere competenze tecniche.
Quest’ultimo punto mette in evidenza l’importanza di tale misura, amplificata dalla crescente rilevanza che l’intelligenza artificiale sta assumendo nei vari settori tecnologici.