Class action contro OpenAI, sulla legalità del web scraping di ChatGPT: le posizioni di Europa e USA

OpenAI, la società di intelligenza nota ai più per il suo popolare chatbot ChatGPT, è stata chiamata in causa perché avrebbe pesantemente violato i diritti d’autore e la privacy di innumerevoli persone quando ha deciso di utilizzare dati estratti da Internet per addestrare la sua tecnologia. Facciamo chiarezza sulla legalità della tecnica del web scraping

Lo studio legale Clarkson ha avviato lo scorso 28 giugno una class-action contro OpenAI presso il tribunale federale del distretto settentrionale della California.

La causa, che include 16 querelanti, afferma che OpenAI, la società di intelligenza artificiale fondata nel 2015 da Elon Musk e alcuni altri imprenditori, e nota ai più per il suo popolare chatbot ChatGPT, avrebbe pesantemente violato i diritti d’autore, e la privacy, di innumerevoli persone quando ha deciso di utilizzare dati estratti da Internet per addestrare la sua tecnologia, con danni stimati intorno ai tre miliardi di dollari.

L’azione legale cita anche Microsoft in quanto principale cliente e partner aziendale di OpenAI.

Indice degli argomenti

La caratteristiche della causa

La base legale della causa è il Computer Fraud and Abuse Act, la legge americana sulla pirateria informatica: la causa sostiene infatti che OpenAI avrebbe violato i diritti di milioni di utenti quando ha utilizzato, a loro insaputa, i loro commenti sui social media, i loro post, le loro chat o la loro posizione per addestrare i propri algoritmi.

Nello specifico, OpenAI avrebbe “rubato” con la tecnica del web scraping “300 miliardi di parole” senza essersi registrata come broker o aver chiesto il consenso agli utenti o aver corrisposto un adeguato pagamento per l’utilizzo di questi dati.

Come sappiamo, il web scraping è una particolare tecnica di crawling in grado di estrapolare una grande quantità di informazioni, tra cui anche dati personali degli utenti, come numeri di telefono o contatti di posta elettronica, per poi rielaborarli successivamente, ed è una tecnica che si rivela utile e insostituibile per l’addestramento degli algoritmi di intelligenza artificiale generativa.

A ciò si aggiungono anche le problematiche legate alla privacy degli utenti, in quanto molti dei dati personali “rubati” da OpenAI per addestrare i suoi algoritmi, dice la causa, “possono anche essere utilizzate per scopi estremamente nefasti, come il monitoraggio, la sorveglianza e il crimine”.

Gli algoritmi di intelligenza artificiale generativa funzionano collezionando un numero molto vasto di informazioni, prese per lo più dal mondo digitale e da internet, ed “imparano” costruendo inferenze tra di esse.

Dopo aver consumato una quantità sufficiente di dati, i “modelli linguistici di grandi dimensioni” che ne risultano possono prevedere cosa dire in risposta a una domanda, fino ad arrivare a produrre testi complessi simulando il linguaggio umano.

Oltre alla richiesta di danni, che si aggira intorno ai tre miliardi di dollari, i querelanti hanno chiesto anche che vengano messe in atto una serie di misure correttive nei confronti di OpenAI, tra cui l’istituzione di un consiglio indipendente e la possibilità di avere accesso a tutte le informazioni personali che la società avrebbe raccolto e utilizzato.

“Nonostante vi siano protocolli consolidati per l’acquisto e l’uso di informazioni personali in rete, qui è stato adottato un approccio diverso: il furto”, si legge nel testo dell’azione legale.

Oltre agli aspetti legati al diritto d’autore, sempre in ambito privacy OpenAI è anche accusata di scarsa trasparenza verso i propri utenti, e di non fare abbastanza per impedire ai minori di 13 anni di utilizzare i propri servizi, al contrario di Meta e YouTube.

Il web scraping è illegale?

In generale, il web scraping non è illegale, se i dati raccolti sono disponibili on line e se vengono usati per fini statistici. Il web scraping diventa però illegale quando i dati vengono impiegati per usi diversi, ad esempio per violazione del diritto d’autore, o per fini di lucro. Proprio su questo si basa il fulcro della causa attualmente intentata da Clarkson, che intende dimostrare anche questo tipo di violazione.

Non va dimenticato, però, che nelle cause di Meta contro due società, l’israeliana BrandTotal Ltd e la statunitense Unimania Inc, le quali sfruttavano a proprio vantaggio i dati personali di ignari utenti di Meta e Instagram, la vittoria di Meta è avvenuta grazie a questioni relative ai termini contrattuali e non sull’illegalità dell’azione in sé.

Alcuni sviluppatori di intelligenza artificiale americani sostengono che l’uso di dati da Internet dovrebbe essere considerato “fair use”, facendo riferimento alla Fair Use Doctrine nata negli Stati Uniti nel 1976, e codificata all’interno del Copyright Act (Section 17 U.S.C. § 107), che permette, in alcuni casi, di utilizzare liberamente opere protette da Copyright, attingendo tra gli altri al concetto di “uso trasformativo”, ovvero l’utilizzo di un opera da parte di un altro autore, non come sostituto della prima, bensì per esprimere qualcosa di diverso e nuovo rispetto all’originale.

Katherine Gardner, avvocato specializzato in proprietà intellettuale presso Gunderson Dettmer, ha dichiarato che il “fair use” è una questione che riempirà le aule dei tribunali americani nei prossimi anni, ma è poco probabile che il singolo individuo possa dimostrare, a differenza di un artista, il copyright dei propri contenuti on line, e quindi ottenere il riconoscimento di un danno, in quando solitamente quando si condividono dei contenuti on line si concede una licenza piuttosto ampia: vero è, però, che il giudice americano potrebbe spingersi vino a costringere una azienda come OpenAI a fornire informazioni sui dati che ha utilizzato per addestrare i propri algoritmi.

La posizione dell’Europa

Anche in Europa la questione del web scraping è da tempo dibattuta e sono molti i contenziosi che se ne sono occupati, da Facebook e il famoso caso di Cambridge Analytica, a ClearviewAI, che raccoglieva foto sul web al fine di alimentare un algoritmo di riconoscimento facciale venduto poi alle polizie di tutto il mondo, al recente caso che ha visto coinvolto il Garante Privacy italiano e ChaptGPT, sottoposto recentemente a un provvedimento di limitazione provvisoria, sia per la mancanza di una informativa che per una base giuridica idonea.

Anzi, a ben guardare, l’azione legale avviata da Clarkson contiene molti degli stessi rilievi che hanno portato il Garante Italiano ad intimare a ChaptGPT di allinearsi alle norme del Regolamento EU 2016/679 o GDPR e a limitare il trattamento degli utenti italiani.

Il web scraping, infatti, in Europa assume una sua rilevanza nell’ambito del trattamento di dati personali, perché, se viene condotto illegalmente, può andare a inficiare la liceità di un tale trattamento.

Tutto il corpus delle norme della protezione dei dati europeo, infatti, fino all’attuale GDPR, si basa su due elementi chiave: la base giuridica del trattamento e l’informativa data agli interessati. Nel caso di un algoritmo di intelligenza artificiale generativo, ne consegue che l’informativa deve contenere sia la fonte dei dati che la base giuridica del trattamento relativa alla raccolta massiva di tali dati la cui finalità è l’addestramento dell’algoritmo stesso: senza queste informazioni, il trattamento non può considerarsi lecito, e molte delle pronunce delle Autorità di Regolamentazione, compreso il nostro Garante, o della magistratura ordinaria, fanno riferimento a questo aspetto.

Altri aspetti che poi vanno considerati nella valutazione della liceità sono i principi di privacy by design e by default.

È storia recente il provvedimento del Garante privacy che ha vietato al gestore di un sito web la creazione e la diffusione su Internet di un elenco telefonico ottenuto tramite web scraping, in cui viene ribadito, tra le altre, la mancanza di una idonea base legale, in assenza del consenso degli utenti.

I casi, però, vanno valutati singolarmente, come ha dimostrato la sentenza pronunciata dal Tribunale di Roma, sezione 34006, che ha visto Trenitalia contro l’inglese Gobright Media Ltd, produttrice della app Trenit, che consente ad un utente di confrontare le tariffe dei treni ad alta velocità.

In questo caso, la causa è stata incentrata sull’applicazione dell’art. 102-ter, legge 633/1941 o Legge sul Diritto d’Autore dove il giudice ha espresso un parere favorevole verso il web scraping, valutando come la società inglese non faceva un uso illecito dei dati degli utenti o in possesso di Trenitalia.

La notizia della task force voluta dell’European Data Protection Board (EDPB) su ChaptGPT, e l’esigenza di porre quindi una particolare attenzione a questo tipo di prodotti, è di buon auspicio e sarà fondamentale per stabilire in maniera uniforme la liceità dei trattamenti.

È urgente, però, chiarire cosa gli operatori del settore possono o non possono fare, e sui limiti che non devono essere mai superati.

Conclusioni

Difficile prevedere ora gli impatti della causa intentata da Clarkson, la quale non è che l’ultima di una lunga serie di cause americane: a novembre è stata intentata una class action sempre contro OpenAI e Microsoft per come le società hanno utilizzato il codice open source della piattaforma Microsoft GitHub per addestrare i propri strumenti di intelligenza artificiale; a febbraio, Getty Images ha citato in giudizio Stability AI, una piccola start-up di intelligenza artificiale, accusandola di aver utilizzato illegalmente le sue foto per addestrare il suo generatore di immagini basato sulla AI; a giugno OpenAI è stato citato in giudizio per diffamazione da un conduttore radiofonico in Georgia che ha affermato che ChatGPT ha prodotto un testo che lo accusava ingiustamente di frode.

Ryan Clarkson, managing partner dell’omonimo studio, ha dichiarato di aver deciso di intentare la causa contro OpenAI perché l’azienda ha un ruolo chiave rispetto agli altri player nell’ambito dell’intelligenza artificiale generativa, ed è estremamente nota per via del suo prodotto, ChatGPT: “OpenAI è la società che ha dato il via a questa corsa agli armamenti di intelligenza artificiale”, ha affermato. “ed è il primo obiettivo naturale.”

Al momento OpenAI non ha rilasciato alcun commento.