Machine learning e dati personali, un rapporto complesso ma non impossibile

Le tecnologie machine learning sono sempre più diffuse, tuttavia il loro utilizzo va studiato attentamente per ottenere conformità al GDPR in materia di dati personali. I rischi sono importanti, come il monitoraggio e il controllo pervasivo

Le tecnologie machine learning sono sempre più diffuse, ma fanno sorgere dubbi sulla compliance al GDPR per quanto riguarda la gestione dei dati personali.

Oggi, i meccanismi digitali delle organizzazioni a cui ci rivolgiamo quotidianamente sono infatti governati da intermediatori intelligenti utili a potenziare le capacità decisionali dell’uomo in molteplici ambiti della vita del singolo e della collettività, riducendo inefficienze ed errori. Ma qual è il processo che consente di arrivare a queste decisioni in cui l’essere umano interviene sempre meno frequentemente?

Indice degli argomenti

Due scenari per riflettere

Un primo scenario non implica intelligenza, ma la semplice riproposizione in forma digitale di regole nativamente analogiche. Assumiamo che ad ogni persona più anziana di ottant’anni venga rifiutata automaticamente la richiesta di assicurazione sulla vita. Il processo è elementare: si stabilisce una regola fissa (deterministica) che guiderà la decisione in maniera automatica. Un secondo scenario – sempre più utilizzato – implica una fase preliminare di analisi dei dati – detta profilazione – che consente successivamente di arrivare alla decisione automatizzata.

Intendiamo per profilazione quell’attività automatica utile alla classificazione dei soggetti in base a determinate caratteristiche personali di comportamento. Questa operazione, di per sé priva di significato, consente di dedurre (anche da dati aggregati) informazioni personali utili alle decisioni che l’organizzazione dovrà prendere in un momento immediatamente successivo. Un esempio ci aiuterà a capirne la portata.

Un esempio: la compagnia assicurativa

Una compagnia assicurativa decide di analizzare i dati dei pagamenti elettronici di tutti i suoi clienti per identificare comportamenti correlati al tasso di incidentalità stradale. L’analisi rivela che chi consuma alcolici nei bar di notte è maggiormente soggetto a commettere incidenti stradali: il modello ha identificato un pattern rilevante ed è in grado di riconoscerlo anche quando vengono processati dati completamente nuovi. Dunque, applicando il profilo a un singolo nuovo cliente si può supporre che, se quel soggetto acquista drink nei bar in orari notturni, vi sono considerevoli possibilità che sia maggiormente esposto a commettere incidenti stradali.

Così, in virtù delle informazioni estratte, la compagnia assicurativa potrà personalizzare i premi dei singoli clienti oppure proporgli prodotti alternativi. In base al risultato ottenuto dal modello si dà quindi vita a una decisione che nella maggior parte dei casi avviene in forma totalmente automatizzata. Tra le molte soluzioni tecnologiche ad oggi disponibili sul mercato, il Machine Learning (ML) sembra essere lo strumento più efficace per realizzare quanto fin qui descritto. In altre parole, considerando che i profili non sono altro che patterns risultanti da un trattamento probabilistico di dati, utilizzare algoritmi di ML risulta particolarmente idoneo e conveniente per l’attività di profilazione[1].

Ma gli innegabili benefici di questo approccio all’analisi dei dati devono essere attentamente contemperati con le esigenze di protezione dei soggetti a cui i dati si riferiscono. Tali pratiche infatti non solo possono dar vita a nuove forme di controllo e monitoraggio pervasivo e costante sugli individui, ma possono addirittura arrivare ad esasperare pregiudizi ed incrementare discriminazioni, determinando nel peggiore dei casi anche emarginazione o esclusione sociale. Tutto ciò pone particolari rischi per i soggetti, soprattutto considerando la complessità e la spesso inevitabile opacità in merito al funzionamento di questi strumenti.

Regole per le decisioni automatizzate

A fronte dell’aumento considerevole dei rischi poco fa descritti, l’apparato normativo europeo si è dotato di strumenti utili a contenerne gli effetti negativi che queste tecnologie potrebbero generare sulle persone fisiche. Il nuovo Regolamento Europeo sulla Protezione dei Dati (Reg. UE 2016/679 – GDPR – applicabile dal 25 maggio 2018) continua a proteggere informazioni sensibili e sistemi informatici da attacchi hacker, ma aggiunge molto altro. Uno dei principali propositi del GDPR consiste nel contrastare la potenziale capacità discriminatoria che algoritmi e decisioni automatizzate possono avere sulle persone fisiche.

In particolare, l’articolo 22(1), stabilisce che le persone fisiche hanno il diritto di non essere sottoposte a decisioni completamente automatizzate che producano effetti giuridici o incidano in maniera analoga nei loro confronti. Questa regola generale – derivata con notevoli miglioramenti dalla precedente Direttiva 95/46/CE – è poi mitigata da tre eccezioni (basi giuridiche che legittimano il trattamento) in cui le decisioni automatizzate sono invece consentite.

La prima eccezione riguarda i casi in cui “la decisione è necessaria per l’esecuzione di un contratto”. L’esempio tipico riguarda il caso in cui un’azienda riceva un elevato numero di candidature per una posizione vacante e decida pertanto di servirsi di processi decisionali automatizzati per fare una short list di possibili candidati, con l’intenzione di concludere un contratto con uno (o alcuni) di loro.

Per rispondere al più generale requisito di necessità, il processo decisionale dovrebbe essere il metodo meno invasivo della sfera della privacy del soggetto per poter concludere quel contratto[2]. Nella maggior parte dei casi però la decisione agevola o semplicemente permette la conclusione del contratto, pur non essendo strettamente necessaria. E così, considerando che il margine tra necessità e facilitazione è molto sottile, un’interpretazione restrittiva della norma lascerebbe poco spazio alle organizzazioni per potersi avvalere di questa eccezione e dunque servirsi di processi decisionali totalmente automatizzati.

Può addirittura capitare che questo approccio all’analisi dei dati permetta di ridurre l’invasività del processo sotteso sotto il profilo privacy. Infatti, grazie alle feature selection -fase in cui si seleziona un subset di variabili rilevanti e significative per la costruzione del modello – la macchina è in grado di prendere una decisione basandosi su un numero limitato di dati rispetto a quelli che un essere umano dovrebbe invece processare per prendere la stessa decisione. Proprio per questo in alcuni casi le decisioni automatizzate possono essere meno invasive rispetto a quelle prese dagli esseri umani.

Il secondo caso in cui è possibile avvalersi di processi decisionali automatizzati riguarda le situazioni in cui queste tecniche sono “autorizzate dal diritto UE o nazionale”. Il Federal Data Protection Act – che adegua la normativa nazionale tedesca al GDPR – ha stabilito che il diritto di non esser sottoposto a decisioni totalmente automatizzate non si applica nell’ambito dei rapporti assicurativi.

Senza entrare nel merito di questa disposizione ancora poco utilizzata dai legislatori europei, è importante notare come una misura legislativa che disponga l’implementazione di processi decisionali automatizzati potrebbe favorire incredibili innovazioni tecnolgiche nel settore interessato.

La terza ed ultima eccezione riguarda i casi in cui “la decisione si basa sul consenso esplicito dell’interessato”. Affinchè il consenso possa considerarsi valido ai sensi del GDPR, questo deve essere “libero, specifico, informato e inequivocabile”. Nel contesto della presente analisi, particolare complessità è rivestita dal requisito informativo, in virtù del quale il soggetto (l’interessato) deve poter comprendere genuinamente l’attività di trattamento che verrà svolta in maniera automatica.

Ciò significa che chi sta trattando i dati (il titolare) deve mettere a disposizione dell’interessato una quantità sufficiente di informazioni rilevanti riguardo la logica utilizzata per prendere la decisione nonché gli effetti conseguenti al trattamento. Questo requisito non sarà difficile da implementare qualora gli algoritmi di ML utilizzati siano “white-box”. In tal caso infatti il trattamento dati può essere spiegato e compreso dall’interessato e il processo decisionale può esser tracciabile ancor più chiaramente rispetto a quanto operato da un essere umano.

Invece, le tecniche “black-box” presentano particolari criticità. Questi strumenti altamente performanti tipicamente trasformano le variabili in maniera né comprensibile né spiegabile nemmeno dal miglior analista o dallo stesso programmatore.

In questi casi, affidarsi al consenso per prendere decisioni automatizzate richiederà al titolare del trattamento di compiere uno sforzo ulteriore – anche in linea con il principio di accountability – per rendere al soggetto interessato tutte le informazioni che ha a disposizione. Ciò servirà a dimostrazione del fatto che nonostante la complessità tecnologica l’interessato ha compiuto una scelta informata in merito al consenso prestato. L’importanza di questo requisito è collegata agli esiti delle ricerche Eurobarometro[3] che rappresentano un aumento generale della consapevolezza degli utenti e un’attenzione crescente alla comprensibilità delle modalità con cui i dati vengono trattati in maniera automatizzata al fine di prendere decisioni realmente informate.

Le previsioni per il futuro

La portata dirompente delle tecniche di machine learning è innegabile. Riducendo drasticamente costi e inefficienze, si possono raggiungere risultati migliori e ideare prodotti e servizi innovativi. Certamente, l’utilizzo di queste tecnologie è altrettanto complesso dal punto di vista della “GDPR compliance”, ma non è per ciò impossibile.

I tre presupposti di legittimità sopra trattati dovranno essere valutati attentamente da ogni organizzazione che decida di avviare processi decisionali automatizzati. I titolari del trattamento dovranno comunque preoccuparsi delle scelte tecnologiche e della corretta implementazione dei principi di liceità, correttezza e trasparenza, della qualità dei dati descritti all’art. 5 del Regolamento, nonché di svolgere attente analisi in merito ai rischi che potrebbero derivarne. Non esistono impedimenti, ma solo regole a presidio e governo dei rischi che potrebbero derivare dall’utilizzo indiscriminato di queste tecnologie.

Impedire lo sviluppo di queste tecniche sarebbe semplicemente controproducente nel contesto più ampio del Digital Single Market europeo, le cui sfide principali si giocheranno proprio sull’automazione. In conclusione, le organizzazioni che sapranno governare queste regole e reagire in maniera “agile” a questi rischi otterranno considerevoli vantaggi competitivi in un terreno di gioco sempre più digitale, interconnesso, autonomo e robotizzato. L’obiettivo ultimo non dev’essere semplicemente la compliance in senso stretto, ma il miglioramento del design del prodotto, della user experience e – in ultimo – l’aumento della fiducia dei clienti quale driver fondamentale dei mercati digitali.

Note

[1] Ralf Herbrich, (Machine Learning and Managing Director of Amazon Development, Germany) ha affermato che: “ML è la scienza degli algoritmi che rileva dei pattern nei dati per fare previsioni accurate su dati mai visti prima”.

[2] European Data Protection Supervisor, “Assessing the necessity of measures that limit the fundamental right to the protection of personal data”. A Toolkit European Data Protection Supervisor, 11 April 2017.

[3] Special Eurobarometer 431: Data protection https://data.europa.eu/euodp/it/data/dataset/S2075_83_1_431_ENG