Il provvedimento del Garante su ChatGPT ha riportato a galla un argomento che da un po’ di anni, a periodi alterni, torna come tema di discussione, quello del web scraping.
Indice degli argomenti
OpenAI e web scraping al vaglio del GDPR
Una delle contestazioni che l’Autorità Garante ha mosso ad OpenAI, infatti, è quella di non aver indicato nella propria informativa la fonte dei dati e la base giuridica del trattamento inerente la raccolta massiva di dati personali per la finalità di addestramento dell’algoritmo.
Questo aspetto, che ad alcuni può sembrare un formalismo, in realtà è fondamentale per garantire la liceità del trattamento.
ChatGPT: evoluzioni dell’intelligenza artificiale e conseguenze per la sicurezza informatica
Come noto, infatti, il GDPR richiede che ogni trattamento, ovvero ogni operazione che viene condotta su dati personali (dalla raccolta alla cancellazione passando per ogni tipo di elaborazione che può essere fatta) richiede che soddisfi il principio di liceità del trattamento.
In altre parole, il dato personale può essere utilizzato dal titolare del trattamento solo nei casi previsti dal GDPR stesso agli articoli 6 e 9 del Regolamento, a seconda che si tratti di dati comuni o dati particolari.
Condizioni ulteriori vi sono poi per i dati afferenti a condanne penali e reati la cui disciplina è contenuta nell’art. 10 GDPR e, per gli aspetti demandati alla competenza degli Stati membri, nell’art. 2-octies del Codice privacy che consente il loro trattamento previa adozione di misure di garanzia per gli interessati da adottare con un decreto del Ministero della Giustizia.
La raccolta del dato, quindi, è considerata lecita nei casi previsti dal Regolamento inoltre previa, per il tramite dell’informativa che deve avere i requisiti previsti dagli articoli 12, 13 e 14 GDPR.
Questi due elementi, la base giuridica del trattamento e l’informativa, sono i pilastri su cui l’intera normativa in materia di protezione dei dati personali è stata costruita negli ultimi ventotto anni.
Nel 2025 saranno trent’anni dall’emanazione della direttiva 95/46/CE relativa alla tutela delle persone fisiche con riguardo al trattamento dei dati personali, nonché alla libera circolazione di tali dati, la prima direttiva che ha dato origine alla Legge 675/1996 e, con gli innesti successivi, al Codice Privacy (D.lgs. 196/2003).
Oggi la direttiva 95/46 è stata abrogata e sostituita dal GDPR, ma questi due pilastri dell’impianto originario sono rimasti.
La previa informativa dell’interessato e la base giuridica del trattamento oggi devono misurarsi con la “fame di dati” degli algoritmi e dei sistemi di intelligenza artificiale.
L’addestramento di un algoritmo di intelligenza artificiale, infatti, richiede una quantità immensa di dati (personali e non) che permetta alla macchina di apprendere (machine learning) e di avere in sé tutte le risposte alle possibili necessità degli utenti.
La dimensione del database sottostante, naturalmente, aumenta all’aumentare della complessità del sistema di Intelligenza Artificiale e per questo si parla di big data.
Cosa sono i big data?
I big data sono database che vengono descritti da tre V: Volume, Velocità, Varietà a cui si aggiunge una quarta V, quella di Veridicità.
Affinché un database sia utilizzabile, deve avere un grande volume di dati (personali e non), funzionare velocemente, in un modo tanto rapido da non poter essere raggiunto dagli algoritmi di calcolo tradizionali, e le informazioni contenute al suo interno devono essere varie, siano esse in forma strutturata, semi-strutturata, e non strutturata (ad esempio, audio, video, pagine web, ecc.).
Inoltre, le informazioni al suo interno devono essere corrette (veritiere) o, come prevede il GDPR in relazione ai dati personali, conformi al principio di esattezza.
Nel 2017 l’Autorità Garante per le Comunicazioni (AGCOM), l’Autorità Garante per la concorrenza e il mercato (AGCM) e il Garante privacy hanno dato il via a un’indagine conoscitiva sui big data il cui rapporto è stato condiviso nel 2020[1].
All’interno della relazione viene affermata la necessità di una regolamentazione ex ante del fenomeno in considerazione degli impatti che i fallimenti del mercato possono produrre sulla società.
In Europa il quadro regolatorio è diviso tra il Regolamento 2018/1807 sui dati non personali e il Regolamento 2016/679 sui dati personali (il GDPR) con le intersezioni della direttiva e-Privacy per quanto riguarda le attività online che costituisce una legislazione speciale, nonché la direttiva Open-Data e, più recentemente, il Regolamento 2022/868 (DGA).
Quali sono le soluzioni per costruire un data base?
La costruzione di un data base può seguire diverse metodologie.
I dati possono essere raccolti direttamente presso gli utenti, per il tramite dei servizi a cui accedono, o mediante l’uso di cookie e tracciatori. In questo caso, l’informativa viene resa e, sulla base della direttiva e-Privacy, viene chiesto il consenso agli utenti.
Il dato acquisito viene solitamente utilizzato per fornire pubblicità profilata, per eseguire analisi sul funzionamento dei dispositivi, per alimentare gli algoritmi di proposizione di contenuti di interesse per l’utente (si pensi alle piattaforme di streaming).
Il fenomeno del data farm
L’ingente raccolta di dati, anche attraverso soluzioni IoT, ha generato un fenomeno sociale noto agli esperti di Intelligenza Artificiale ma di cui si parla poco, quello della creazione di data farm, spesso in paesi del Terzo Mondo, dove manodopera a basso costo, e talvolta costretta a lavorare in condizioni non dignitose, cataloga e riempie di annotazioni le informazioni raccolte dai dispositivi utilizzati nel mondo occidentale (c.d. data labelling).
L’occhio del robot aspirapolvere
Lo scorso dicembre, il MIT Technology Review aveva rilanciato la notizia su alcune foto scattate da un robot aspirapolvere che accidentalmente immortalavano i loro proprietari mentre il robot acquisiva foto degli ambienti domestici per alimentare l’algoritmo e individuare meglio gli ostacoli.
Una volta catturate, il robot avrebbe mandato via wi-fi le foto ad una data farm, dove gli addetti avrebbero catalogato gli ostacoli (es. scalino, tappeto, angolo).
Le foto che accidentalmente ritraevano delle persone erano circolate su varie piattaforme, in violazione degli obblighi di riservatezza assunti dagli addetti, per portare l’attenzione dell’azienda e dell’opinione pubblica sulle condizioni di lavoro e supportare la rivendicazione salariale degli addetti del settore[2].
Il commercio dei dati è poco trasparente
Accanto alla raccolta di dati attraverso servizi web, app e dispositivi IoT, i dati possono essere acquisiti tramite i c.d. data broker, soggetti che raccolgono dati dagli utenti e li cedono a terzi a fronte di un corrispettivo.
In questo caso, laddove siano coinvolti dati personali, il GDPR richiede al titolare che vengano indicate nell’informativa il terzo o le categorie di terzi a cui il dato viene ceduto e, se la cessione è per finalità di marketing o profilazione, deve essere richiesto il consenso specifico dell’interessato alla cessione del dato per tale finalità.
L’indagine conoscitiva sui big data, ma anche una serie di pronunce delle autorità di controllo, evidenziano come il mercato dei data broker sia poco trasparente.
Il nodo degli Open Data
Il ricorso agli Open Data può essere uno strumento per la costruzione di algoritmi di intelligenza artificiale. Questi sono dati disciplinati dalla direttiva Open Data, (direttiva UE 2019/1024[3]) recepita dal D.lgs 200/2021 entrato in vigore il 15 dicembre 2021.
Gli Open Data non sono una categoria di dati, ma dati grezzi, non manipolati, che vengono pubblicati dagli enti pubblici o da imprese pubbliche in modo che siano accessibili, riutilizzabili, leggibili con dispositivi elettronici e concessi in licenza liberamente.
Uno dei problemi evidenziati dagli interpreti in merito alla normativa sugli Open Data è che la stessa non prevede strumenti a tutela della veridicità/esattezza dei dati[4].
Alcuni algoritmi, infine, possono essere alimentati da dati sintetici, ovvero set di dati generati artificialmente dagli algoritmi che imitano i dati reali, operativi o di produzione o per riprodurre eventi reali il più fedelmente possibile sotto il profilo matematico o statistico.
Accanto a queste fonti di dati, poi, il mercato ha presentato nel corso degli anni diversi esempi di creazione di archivi di dati basati sullo scraping.
Web scraping, aggiornamenti sulla disciplina: ecco cosa impariamo dal caso LinkedIn
Cos’è il web scraping?
Lo “scraping” è una raccolta dati realizzata sulla base di un’automazione non autorizzata da un sito web o da un’applicazione e, a volte, in violazione dei termini di servizio del sito o dell’applicazione.
Più in particolare, la raccolta può avvenire per mezzo di estensioni o di software che simulano la navigazione effettuata da utenti reali (es. attraverso bot o script automatici), al fine di filtrare e acquisire dati che non sempre sono di dominio pubblico.
Le informazioni acquisite possono essere oggetto di successiva elaborazione, anche al fine di costituire un database strutturato e possono avere natura di dato personale, fino a consentire la creazione di specifici profili personali.
Lo scraping all’esame dei giudici
Facebook, così come molti altri gestori di piattaforme online, si è trovato coinvolto in diversi contenziosi contro creatori di app e giochi (si pensi ai test di personalità che spopolano sul sito).
Gli sviluppatori di tali applicazioni accedevano ai dati degli utenti e, in violazione delle condizioni di uso di Facebook e aggirando le misure di sicurezza predisposte, li estrapolavano per varie finalità.
Cosa faceva Cambridge Analytica
Il caso più eclatante di web scraping su Facebook è quello collegato a Cambridge Analytica che ha raccolto i dati di circa 87 milioni di utenti e li ha utilizzati per finalità di targeting politico e manipolazione delle informazioni.
Tuttavia, più recentemente vi sono stati anche i casi di BrandTotal Ltd. e Unimania Inc che attraverso le estensioni del browser “UpVoice” e “AdsFeed” hanno raccolto dati personali su Facebook, Twitter, Instagram, YouTube, LinkedIn e Amazon.
La raccolta avveniva attraverso l’installazione di un’estensione sul browser da parte degli utenti, tale azione permetteva all’applicazione di raccogliere, all’insaputa degli utenti e in assenza di autorizzazione da parte dei gestori delle piattaforme, i dati personali contenuti nei singoli profili durante la normale navigazione dell’utente.
Il caso Trenitalia-Go Bright
Una pronuncia interessante in merito allo scraping è quella del Tribunale di Roma tra Trenitalia e GoBright, una società inglese che aveva elaborato l’app Trenit nella quale comparava le informazioni sui viaggi tra gli operatori del servizio ferroviario operanti in Italia, dando informazioni sui treni esistenti e sul costo del biglietto[5].
Nel caso di specie Trenitalia aveva chiesto la tutela della propria banca dati che conteneva dati non personali (le informazioni sui treni, i ritardi e i costi dei biglietti), sostenendo che lo scraping costituisse una lesione del diritto d’autore (art. 102 Legge sul diritto d’autore, LDA).
La pronuncia del Tribunale
In realtà, il Giudice ha statuito che “La scelta quindi da parte del titolare della banca dati di aprire la stessa all’accesso del pubblico, anche per lo svolgimento delle proprie specifiche attività imprenditoriali (così come avviene per la società TRENITALIA la quale diffonde i dati del proprio traffico passeggeri comprensivi di orari, prezzi, ritardi, servizi accessori ai fini della vendita dei propri prodotti commerciali) comporta la possibilità per qualsiasi utente di estrarre legittimamente tali dati in misura non sostanziale e di utilizzarli nelle forme che ritiene più opportune, anche in forma commerciale”.
La pronuncia è interessante perché individua degli ambiti di liceità dello scraping che era stato stigmatizzato da altre pronunce, ovvero il carettere non massivo della raccolta, in quanto l’informazione veniva acquisita al momento della ricerca da parte dell’utente delle informazioni sull’app Trenit e del carattere aperto al pubblico della banca dati. Ciò a conferma di quanto un’operazione non possa essere definita di per sé lecita o illecita, ma tutto dipende da come viene implementata. Nell’ambito del trattamento dei dati, la liceità è spesso assicurata dal rispetto del principio di privacy by design e privacy by default.
Le pronunce del Garante privacy
Il Garante privacy ha avuto modo di pronunciarsi in più occasioni sullo scraping.
Con il provvedimento del 14 gennaio 2016 [doc. web 6053915][6], si è opposto all’utilizzo di software in grado di reperire “in maniera sistematica e indiscriminata” dati e informazioni per realizzare elenchi telefonici.
Nel caso di specie, il titolare del trattamento gestiva un sito in cui raccoglieva, tramite script automatici, i numeri di telefono e altri dati personali, li aggregava e li rendeva disponibili agli utenti del sito.
Il Garante ha chiarito che la finalità di raccolta in forma di elenco può essere perseguita attraverso l’utilizzo del data base unico (DBU), l’archivio elettronico che raccoglie numeri di telefono e altri dati dei clienti di tutti gli operatori nazionali di telefonia fissa e mobile.
In alternativa, sarà necessario, previo rilascio di idonea informativa, acquisire il consenso libero, informato, specifico per la finalità che si intende perseguire.
Ancora, con il provvedimento in materia di propaganda elettorale e comunicazione politica del 18 aprile 2019[7], il Garante ha affermato che è necessario ottenere il consenso informato degli interessati per poter utilizzare recapiti telefonici contenuti in elenchi pubblici e quindi per creare liste, effettuare chiamate o inviare sms e-mail a scopi propagandistici.
Nel provvedimento erano inclusi anche i dati reperibili sul web come, ad esempio, quelli presenti nei profili dei social network, quelli ricavati da forum e blog, i dati pubblicati su siti web per specifiche finalità di informazione aziendale, commerciale o associative, fino ai dati raccolti automaticamente con appositi software di scraping.
Vi è poi il precedente di ClearviewAI, la società statunitense che raccoglieva foto sul web al fine di alimentare un algoritmo di riconoscimento facciale che veniva successivamente venduto alle polizie di vari paesi in tutto il mondo e che in Italia è stata bloccata proprio dall’Autorità Garante per la protezione dei dati personali, sulla base dell’assenza di base giuridica del trattamento[8].
Clearview AI, dopo un confronto con l’Autorità ha deciso di non offrire i propri servizi all’interno del territorio dell’Unione Europea e ha proceduto a rimuovere i dati dei cittadini italiani e dell’Unione che aveva illecitamente raccolto.
Lo scraping di Google
Una menzione a parte merita il data scraping di Google che, attraverso i suoi script e programmi parser analizza il contenuto dei siti web e ne estrae i contenuti per migliorare la catalogazione dei risultati.
In questo caso, vi è un intero settore di professionisti che lavora sulla Search Engine Optimization (SEO) per presentare i propri contenuti in modo ottimale per i motori di ricerca e arrivare prima al pubblico.
I dati utilizzati sono funzionali al servizio del motore di ricerca, il gestore del sito solitamente autorizza preventivamente l’indicizzazione dei contenuti del proprio sito web sul motore di ricerca che, al suo interno, ha implementato dei meccanismi per garantire il diritto all’oblio.
Vi è pertanto un’autorizzazione a monte all’utilizzo dei dati caricati all’interno del sito internet da parte del gestore del sito, mentre altri dati sono acquisiti anche attraverso i servizi aggiuntivi, quali i cookie e altri strumenti di tracciamento, previo rilascio del consenso.
ChatGPT in corsa per tornare a maggio, ecco il dettaglio delle richieste dal Garante
La particolarità di ChatGPT
Il provvedimento del Garante su chat-GPT ha evidenziato una differenza rispetto ai motori di ricerca, in quanto i dati che compongono il database di chat-GPT sono dati personali e sono stati raccolti per addestrare l’algoritmo prima del lancio del servizio e in assenza di autorizzazione da parte degli interessati e informazione da parte della piattaforma.
La base giuridica del trattamento, pertanto, non può essere il contratto (la fornitura del servizio di chat).
Nel provvedimento sono indicati come rimessi alla valutazione del titolare il consenso o l’interesse legittimo.
Il consenso, come noto, deve avere i requisiti di cui all’art. 7 GDPR. Deve essere libero, informato, specifico e revocabile. Devono essere implementati dei meccanismi che consentano di dimostrare il rispetto di questi elementi affinché sia considerato validamente prestato. In difetto il trattamento sarà considerato illegittimo.
L’interesse legittimo, invece, è una base giuridica che richiede al titolare di effettuare un bilanciamento di interessi tra l’interesse del titolare e i diritti e le libertà degli interessati, è la base giuridica che viene utilizzata in alcuni settori come quello sulle informazioni commerciali o delle informazioni creditizie che utilizzano, aggregano ed elaborano dati provenienti da fonti pubbliche o pubblicamente accessibili.
Si tratta, tuttavia, di settori altamente regolamentati la cui attività può essere esercitata da soggetti muniti di licenza prefettizia.
Sono stati elaborati Codici di condotta che vanno a disciplinare le modalità di svolgimento del trattamento, le fonti di dati accessibili e le misure di sicurezza che i titolari devono implementare.
Inoltre, l’interesse legittimo, ricorda anche il Garante, richiede l’implementazione di un meccanismo per garantire l’esercizio del diritto di opposizione al trattamento.
Da ultimo, vale la pena di ricordare che l’interesse legittimo non è una condizione di liceità per il trattamento dei dati particolari (salute, vita sessuale, opinioni politiche, orientamenti filosofici, appartenenza sindacale ecc.).
La scelta del titolare può dipendere anche dalle modalità di raccolta dei dati e delle possibili intersezioni con la direttiva ePrivacy che prevede, come visto sopra, il consenso dell’interessato nel caso di raccolta attraverso cookie e altri strumenti di tracciamento.
L’attenzione al controllo sui propri dati da parte dell’interessato è così centrale nella normativa europea da essere presente persino nel Data Governance Act nell’ambito delle condizioni di riutilizzo dei dati personali pseudonimi messi a disposizione dagli enti pubblici.
In particolare, l’art. 5 par. 6 DGA sul riutilizzo dei dati dispone: “6. Qualora il riutilizzo dei dati non possa essere consentito in conformità degli obblighi di cui ai paragrafi 3 e 4 del presente articolo e non vi sia alcuna base giuridica per la trasmissione dei dati a norma del regolamento (UE) 2016/679, l’ente pubblico si adopera al meglio, conformemente al diritto dell’Unione e nazionale, per fornire assistenza ai potenziali riutilizzatori nel richiedere il consenso degli interessati o l’autorizzazione dei titolari dei dati i cui diritti e interessi possono essere interessati da tale riutilizzo, ove ciò sia fattibile senza un onere sproporzionato per l’ente pubblico. Qualora fornisca tale assistenza, l’ente pubblico può essere assistito dagli organismi competenti di cui all’articolo 7, paragrafo 1”.
L’EDPB crea la task force europea su ChatGPT, dopo lo stop italiano: cosa significa
Conclusioni
La costituzione di una task force europea in seno all’EDPB per coordinare le azioni di enforcement è una buona notizia perché la valutazione della liceità del trattamento è un elemento cardine da cui discende tutto il resto e, ai sensi del GDPR, non vi è misura di sicurezza tecnica o organizzativa che possa sopperire alla mancanza di tale aspetto, come più volte ha ricordato l’Autorità Garante[9].
Pertanto, è quanto mai opportuno, anche ai fini dello sviluppo del mercato dell’AI europeo che vi sia chiarezza su ciò che gli operatori del settore possono fare e sui limiti da non valicare in relazione all’utilizzo dei dati personali.
L’emanazione del Regolamento sull’AI, in tal caso, è poco rilevante per via dei rimandi alla disciplina in materia di dati personali che il testo contiene che costituisce una lex specialis in relazione alle condizioni di utilizzo dei dati personali.
Sicuramente, la vicenda è da monitorare con attenzione per le riflessioni, non banali che vi sono connesse e per le ripercussioni sul mercato e sulla tutela degli individui.
NOTE
Indagine conoscitiva sui Bigdata: https://www.agcm.it/dotcmsdoc/allegati-news/IC_Big%20data_imp.pdf ↑
MIT Technology Review https://www.technologyreview.com/2022/12/19/1065306/roomba-irobot-robot-vacuums-artificial-intelligence-training-data-privacy/ ↑
Direttiva UE 2019/1024 https://eur-lex.europa.eu/legal-content/IT/TXT/PDF/?uri=CELEX:32019L1024 ↑
S. Bonavita, A. Cortina: https://www.agendadigitale.eu/sicurezza/direttiva-open-data-il-problema-dei-formati-e-il-buco-sulla-sicurezza/ ↑
Trib. Roma ordinanza di Revoca provvedimento precedente del 05/09/2019 R.G. 34006/2019 ↑
https://garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/6053915 ↑
https://garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/9105201 ↑
https://www.garanteprivacy.it/home/docweb/-/docweb-display/docweb/9751323 ↑
Si veda su tutti l’ordinanza contro ASP Enna del 14 gennaio 2021 in relazione all’utilizzo dei dati biometrici per la finalità di controllo delle presenze dei dipendenti in cui l’assenza di base giuridica all’interno dell’ordinamento ha reso il trattamento impossibile da implementare: https://www.garanteprivacy.it/home/docweb/-/docweb-display/docweb/9542071 ↑