Privacy del DNA, ecco i primi standard su rischi e minacce: il rapporto del NIST

Il National Cybersecurity Center of Excellence del NIST ha pubblicato un interessante documento su sicurezza informatica e protezione dei dati personali connessi all’utilizzo di dati genetici o genomici. Ecco un’analisi dettagliata per sottolinearne alcuni aspetti rilevanti e proporre utili riflessioni

Il 20 dicembre 2023, il National Cybersecurity Center of Excellence (“NCCoE”) del NIST ha pubblicato il rapporto interagenzia (IR) n. 8432 dal titolo Cybersecurity of Genomic Data.

L’obiettivo del rapporto è di assistere le organizzazioni nella protezione contro l’uso improprio dei dati genomici che potrebbe danneggiare individui, compagnie e la “Nazione” a consentire innovazioni collaborative sicure.

La prima “bozza” è stata resa pubblica il 3 marzo del 2023 ed è stata “lasciata aperta” ai commenti da parte degli “stakeholder” sino al 3 aprile successivo. È poi seguito il lavoro di raccolta dei contributi e confronto con le parti interessate che ha condotto al rilascio del rapporto.

La guida rilasciata con questo documento è il primo documento legato al progetto del NIST dedicato a Cybersecurity and Privacy of Genomic Data, che ha preso le mosse da un workshop promosso e ospitato dalla Agenzia che si è tenuto il 26 gennaio del 2022, a cui hanno preso parte diversi stakeholder tra aziende del settore (inclusa Amazon-AWS), università americane e organizzazioni, tra le quali, in particolare, segnalo Future of Privacy Forum (rappresentato da John Verdi).

Il progetto dell’Agenzia americana per la sicurezza informatica (l’omologo della “nostra” ENISA), primo nel suo genere, prende le mosse dalla considerazione che l’avvento di tecnologie di sequenziamento genomico a basso costo ha inaugurato un’era in cui è ora possibile sequenziare e analizzare un intero genoma in modo rapido e conveniente.

Prende atto che le enormi quantità di dati genomici raccolti hanno contribuito ad alimentare la posizione di leadership economica e sanitaria degli Stati Uniti; e che, tuttavia, queste informazioni potrebbero non essere protette con sufficiente rigore.

Il documento si è reso necessario, ad opinione del NIST, per il ruolo fondamentale che ha assunto (e assumerà) la c.d. “bioeconomy” e dal singolare punto di convergenza di rischi diversi che questo tipo di dati (quelli genomici) rappresentano, per gli individui, l’economia, la società e la sicurezza nazionale: “Perdere il DNA non è come perdere una carta di credito. Si può ordinare una nuova carta di credito, ma non si può sostituire il proprio DNA. La perdita del DNA non riguarda solo voi, ma anche i vostri parenti e, potenzialmente, le generazioni future”.

NIST Cybersecurity Framework: come valutare il profilo cyber di un’organizzazione

Indice degli argomenti

Il documento del NIST in sintesi

Il documento, di poco più di 80 pagine complessive, è diviso in 7 (succinti) capitoli, inclusa introduzione e conclusioni.

Il capitolo 2 fornisce un resoconto del “background” relativo alle informazioni genomiche fornendo alcuni riferimenti sulla natura dei dati (e delle informazioni genomiche), il ciclo di vita di queste informazioni, sugli attuali sistemi di sequenziamento “professionale” e su quelli “da banco” (direct-to consumer, DTC).

Il capitolo termina con un paragrafo sul “Equilibrio tra benefici e rischi per gli usi delle informazioni genomiche”.

Il capitolo 3 è dedicato a “Sfide e preoccupazioni associate alla gestione delle informazioni genomiche”, nei diversi (sette) paragrafi che lo compongono, il documento esprime le preoccupazioni (per la Sicurezza Nazionale (potenziali), per discriminazione e reputazione, economiche e per potenziali ulteriori sviluppi.

In merito alla “privacy”, anziché preoccupazioni, il documento si esprime in termini di potenziali “problemi”. Evidenziando che in quest’ambito il “topic” ha già superato la soglia di preoccupazione e manifesta già i connotati di problema.

Il capitolo 4 illustra lo stato dell’arte delle pratiche attualmente in adozione “current state of practices”, per la “protezione” dei dati genomici in quanto tali e per la protezione della privacy.

Illustra, quindi, le pratiche di gestione del rischio, le “best practices” in cybersecurity e privacy e propone un riassunto delle lacune nella protezione dei dati genomici.

Il capitolo 5 si dedica ad illustrare le soluzioni disponibili per soddisfare le attuali necessità (di protezione e privacy).

Il capitolo 6 evidenzia le aree per future ricerche e il settimo le conclusioni.

Il rapporto fornisce una la definizione di dati genomici, come dati che comprendono informazioni sulle sequenze di acido desossiribonucleico (“DNA”), sulle varianti e sull’attività dei geni – sono molto utilizzati dai ricercatori, dal governo e dall’industria privata per capire come le differenze nelle sequenze di DNA influiscano sulla salute.

Questo tipo di dati è definito dal Rapporto “di natura altamente sensibile”, ponendo in discussione (molto critica), inoltre, se e come possano essere realmente de-identificati.

Secondo gli esperti del NIST, le attuali linee guida per la gestione del rischio non tengono adeguatamente conto dei problemi di cyber security e di privacy legati all’uso dei dati genomici, in particolare per quanto riguarda il (sempre più problematico) bilanciamento tra le restrizioni di accesso e la necessità di condividere tali dati.

Di conseguenza, il rapporto evidenzia i problemi specifici di privacy e cyber security associati all’uso dei dati genomici e, sulla base dei contributi degli stakeholder dell’industria “genomica”, del governo e del mondo accademico, identifica le lacune significative nelle politiche, nei regolamenti, nella legislazione e nelle linee guida attuali, nonché nella tecnologia, per la protezione dei dati genomici.

Il rapporto si conclude poi, come detto, proponendo potenziali soluzioni alle lacune individuate e aree per ulteriori ricerche.

Rilevanza di dati genomici e rischi associati al loro crescente utilizzo

Il campo della scienza dei dati genomici è cresciuto rapidamente, con conseguente aumento della generazione e della condivisione di dati genomici per la ricerca, spesso attraverso collaborazioni “big data” che coinvolgono ricercatori di più istituzioni e Paesi.

Secondo l’NIH, National Human Genome Research Institute, ogni anno vengono generati da 2 a 40 miliardi di gigabyte di dati genomici da milioni di persone in tutto il mondo.

La questione della sicurezza della “catena del valore” della bioeconomia, negli USA, preoccupa non solo per aspetti “tecnici” o legali. È ovviamente parte di un quadro strategico di acquisizione e posizionamento della Leadership Americana, come si evince da un Ordine Esecutivo del presidente Biden, già del 12 Settembre 2022.

Questo “massimo atto presidenziale” è dedicato proprio “promuovere l’innovazione delle biotecnologie e della produzione biologica per una bioeconomia americana sostenibile, sicura e protetta”; ed è proprio da questo documento che è emersa la consapevolezza di alcuni rischi per l’economia, l’industria biotecnologica e i singoli individui, nonché per la sicurezza nazionale degli Stati Uniti, derivanti da incidenti di privacy o di cybersicurezza aventi come oggetto i dati genomici.

I rischi per la privacy degli individui insiti nell’uso dei dati genomici rilevati nel Rapporto, includono, ad esempio, “la possibilità di intimidazioni a scopo di lucro, la discriminazione basata sul rischio di malattie, la rivelazione di consanguineità o fenotipi nascosti, tra cui la salute, la stabilità emotiva, la capacità mentale, l’aspetto e le abilità fisiche”.

Il rapporto del NIST spiega, inoltre, che l’utilizzo dei dati genomici di un paziente per scopi di assistenza sanitaria può comportare alcune preoccupazioni, tra cui “la portabilità, la catena di custodia, la reinterpretazione dei dati genomici e la gestione del consenso”, nonché i danni derivanti dal furto o dal sabotaggio dei processi analitici o dei sistemi che governano la creazione della c.c. medicina di precisione.

Il rapporto evidenzia che le attuali linee guida per la gestione dei rischi legati alla privacy e alla cyber sicurezza non affrontano i rischi inerenti all’uso dei dati genomici.

Descrive quindi le seguenti lacune significative nelle linee guida attuali, identificate dagli stakeholders durante vari workshop ospitati dall’NCCoE nel 2022 e arricchiti attraverso le ricerche successive.

In particolare, le lacune individuate riguardano:

le pratiche lungo tutto il ciclo di vita della generazione dei dati genomici;
la condivisione sicura e responsabile dei dati genomici;
il monitoraggio dei sistemi di elaborazione dei dati genomici;
la mancanza di documenti di orientamento specifici che affrontino le esigenze peculiari dei processori di dati genomici;
le lacune normative e politiche rispetto alle minacce alla sicurezza nazionale e alla privacy nella raccolta, conservazione, condivisione e aggregazione dei dati genomici umani.

Le misure di mitigazione del rischio proposte

Illustrati i rischi, le minacce e le lacune attuali, per rafforzare la privacy e la sicurezza dei dati genomici, il rapporto del NIST propone alcune misure:

Le linee guida esistenti, come il NIST Risk Management Framework (RMF), il Cybersecurity Framework e il Privacy Framework, devono essere adattate per includere protezioni specifiche e appropriate per i dati genomici.
Il NIST Privacy Framework Profile for Genomic Data, la cui pubblicazione è prevista per il 2024, potrebbe chiarire come gestire i rischi per la privacy associati all’aggregazione, alla conservazione e all’elaborazione dei dati genomici.
La specifica Manufacturer Usage Description potrebbe migliorare la sicurezza dei sequenziatori e ridurre la probabilità di attacchi ransomware e di perdite di proprietà intellettuale o di privacy dovute all’esfiltrazione dei dati.
Dovrebbero essere creati progetti dimostrativi per illustrare come sfruttare soluzioni sicure basate sul cloud per proteggere i dati genomici, come previsto dal NIST RMF, e come l’uso della crittografia omomorfa federata potrebbe ridurre il rischio di perdita di riservatezza o integrità causata dalla condivisione di dati genomici.
Le linee guida o i benchmark di sicurezza per i sequenziatori genomici potrebbero fornire le migliori pratiche di cybersecurity, anche per quanto riguarda il miglioramento della sicurezza della catena di approvvigionamento e la resilienza informatica contro le minacce future.

Le aree di ricerca future

Infine, il rapporto del NIST individua le seguenti aree di ricerca futura:

Sviluppare metodi per integrare in modo sicuro i dati genomici con la cartella clinica elettronica di un paziente, mantenendo la privacy del paziente e consentendo l’interoperabilità.
Migliorare la precisione degli scanner di vulnerabilità per i software container.
Elaborare soluzioni tecniche per risolvere il problema del contenimento dei dati genomici per i metodi di analisi, attualmente non affrontati dalla FMHE, federated multi-party homomorphic encryption (la crittografia omomorfa multiparte federata)[1].

Il Gruppo di Lavoro del NIST, viste le forti raccomandazioni contenute nel Rapporto, “invita” le parti interessate a questo settore a tenersi aggiornate sui potenziali sviluppi relativi alle misure di privacy e di cybersicurezza necessarie per salvaguardare i dati genomici.

Qualche (breve) riflessione conclusiva

Nonostante il documento sia un “IR” della autorevolissima agenzia NIST, appare chiaramente per quello che è, solo un “primo” documento di approccio ad una problematica estremamente articolata e complessa. Ha comunque l’indiscutibile merito, prima facie, di portare ad emersione il problema, di declinarne alcuni rischi e di evidenziare la generale impreparazione sui rischi connessi sia del legislatore che degli attori.

Più che una dettagliata guideline, come invece appare il più articolato “privacy framework”, questo documento ha più il tono di un “avviso ai naviganti”. Più che un contenuto regolatorio ha un contenuto “monitorio”: «conosciamo il problema, la sua natura ed entità e ce ne stiamo occupando. Siete avvisati».

Nel documento appare come “considerazione rilevante”, in particolare, la natura peculiare di questi dati e la sostanziale impossibilità di de-identificarli. L’avanzamento della tecnica, nota il rapporto, ha permesso di poter procedere alla identificazione di un individuo con porzioni sempre più ridotte di campioni di DNA.

La c.d. fenotipizzazione, il processo per cui attraverso il “codice” si riesce a riscostruire l’aspetto, rende per lo stato della tecnologia (e della società) sempre meno complesso poi, risalire non solo alla identificabilità ma alla identificazione del soggetto (si pensi all’incrocio dell’immagine ottenuta dalla decodifica del DNA, con quelle presenti nel web attraverso strumenti di riconoscimento facciale).

Dei rischi sulla parte “green”, il c.d agro-biotech, non ce ne siamo occupati, ma il rapporto ne rileva una minaccia significante per gli interessi economici, in particolare in termini di protezione di IP e di sicurezza alimentare.

A livello di privacy individuale, il furto di un DNA, può costituire un serio problema. Il rapporto menziona la rivelazione di “consanguineità”, come prole da relazioni extraconiugali o “genitori” non biologici (anche a loro insaputa), che possono scaturire in estorsioni o comunque minacce agli assetti patrimoniali (vedi cause su eredità ecc.).

Non ultimi, poi, menziona i rischi di discriminazione e di bias che possono derivare da un utilizzo “abusivo e abusante” di questi dati e il rischio per la sicurezza nazionale, contemplando rischi di armi biologiche intelligenti. Alcune riflessioni del Rapporto possono apparirci “distopiche” se non addirittura “cacotopiche”, ma sono in realtà una pragmatica applicazione del principio di precauzione statunitense che è parte, della ormai consolidata, “preemption doctrine”, per la quale è necessario avere sempre “il first strike” in ogni ambito, per quanto ipotetica sia la minaccia (o, come in questo caso, anche il problema).

A livello europeo, per il momento, manca una manifestazione di presa d’atto così chiara del problema, e, come (forse) noto, l’ENISA per adesso non ha dedicato al tema in esame uno specifico report e/o progetto o gruppo di lavoro, limitandosi a farne comunque riferimento nel documento del marzo 2023 che identifica “sfide e minacce” emergenti per la cybersecurity al 2030^[2].

A riprova del valore “monitorio” del rapporto NIST, Il 5 gennaio 2024, in apertura di anno, anche l’FTC ha “occupato il campo” dell’utilizzo dei dati genomici, pubblicando un documento dal titolo emblematico “The DNA of privacy and the privacy of DNA” in cui chiaramente avvisa “The FTC is watching how companies use – and claim to use – Artificial Intelligence. DNA algorithms are no exception”. L’Agenzia posta a protezione dei consumatori americani, precisa anche che “Protecting biometric information – including genetic data – is a top FTC priority” avvisando che “La FTC ha una solida esperienza nel contestare “deceptive or unfair dark patterns” anche quando si tratta di ottenere il “consenso” per l’uso e la divulgazione di dati genetici e che “the consequences for ignoring these warnings can be significant”.

Il “combinato disposto” tra l’Ordine Esecutivo presidenziale del settembre 2022, il report del NIST del dicembre e la “dichiarazione” della FTC del 5 gennaio 2024, appare un “manifesto programmatico”.

Non è poi fuori luogo immaginare che questo “manifesto programmatico”, coinvolgerà sforzi europei, anche in ragione del recente protocollo di rafforzamento della collaborazione tra ENISA e CISA (Cybersecurity and Infrastructure Security Agency, a cui fa capo anche il NIST), siglato proprio nell’ambito di sviluppo delle capacità, scambio di buone pratiche e miglioramento della consapevolezza situazionale (situational awareness).

Nell’attuale “Report”, la IA non è stata direttamente presa in considerazione, citata solo come fattore, si potrebbe dire, facilitatore di rischio, a differenza invece del “Monito” della FTC che ne fa espresso oggetto della sua attenzione.

Con la pubblicazione del Privacy Framework Profile for Genomic Data, prevista entro la fine del 2024, l’autorevole Agenzia statunitense per la sicurezza informatica, fornirà, analogamente a quanto già fatto in altro ambito, un quadro di riferimento più dettagliato (e certamente corposo) delineando un ulteriore ambito di compliance da “sorvegliare” e “presidi” legal tech da implementare, per i quali le competenze diventano sempre di più trasversali e multidisciplinari, rendendo ancora più evidente, quanto pervasive siano le tecnologie digitali a cui affidiamo larghe parti delle nostre attività (e interessi) e quanto permeabili siano, di contro, gli individui alle stesse e quanto queste siano invece, poco inclini a rispettare confini geografici.

Richiederà uno sforzo ai giuristi che dovranno interpretare questi progressi, i quali, nella irrisolvibile querelle tra “fatto e diritto”, dovranno avere competenze per rilevare “il fatto”, applicare (o elaborare) la norma che lo rende o riconosce giuridicamente rilevante e qualificarlo poi base a quella per poterlo “trattare”.

I “fatti”, però, stanno correndo di gran lunga più rapidamente delle capacità delle norme di individuarli, per poterli vedere (e anticipare), sarà necessario conoscerli, e questa è la sfida per i giureconsulti di quest’epoca “di meraviglie”.

Anche questi documenti (reports, frameworks ecc.) contribuiscono alla creazione della necessaria consapevolezza per la costruzione della Data Driven Society in itinere, fornendo delle indicazioni tecniche che dovranno essere prese in considerazione dai legislatori, e supportarne lo sforzo, per poi “normare” questa (per quanto appaia “virtuale”) realtà fattuale.

Privacy genetica, neuro privacy; appare chiaro che oramai il vorticoso progresso tecnologico, che pone la necessità di proteggere diritti, interessi libertà fondamentali degli individui, sia oramai oltre la soglia “del macro” e sia giunto a livello “molecolare”, livello che toccherà necessariamente anche alla Scienza Giuridica raggiungere, credo.

NOTE

[1] E. Hosseini and A. Khisti, “Secure Aggregation in Federated Learning via Multiparty Homomorphic Encryption,” 2021 IEEE Globecom Workshops (GC Wkshps), Madrid, Spain, 2021, pp. 1-6, doi: 10.1109/GCWkshps52748.2021.9682053.

[2] In particolare, il rapporto ENISA, pone il problema valutando gli Additional Threats, come n.12 nella tabella alla voce “Exploitation of e-health (and genetic) data”, prendendo atto che «The amount of genetic and health data increases tremendously by 2030 and is in the hands of many stakeholders in the public and private sectors», [p.22]. Nel rapporto i dati genetici sono anche “menzionati”, tra il Legal Trends (rif. L.3 a p.36) e nel terzo scenario di identificazione dei rischi (p.56). Manca ancora un rapporto approfondito che affronti in dettaglio natura delle minacce e dei rischi associati e fornisca delle linee guida per “mitigare” tali rischi.