Web scraping e protezione dei dati personali: quali sono i limiti applicativi del GDPR

La recente sentenza con cui i giudici della Corte di Appello del Nono Circuito degli Stati Uniti hanno dato ragione all’azienda hiQ Labs che aveva raccolto informazioni dai profili di LinkedIn ha riacceso il dibattito sulla liceità del web scraping. Un caso che ci interessa per comprendere i limiti applicativi del GDPR

Web scraping: è lecito o illecito? Cominciamo dalla notizia più recente. Ci viene dagli Stati Uniti: a seguito di una decisione della Court of Appeals – 9th Circuit, la società hiQ Labs inc., attiva nel settore dell’intelligenza artificiale, si è vista confermare la preliminary injuction nei confronti di LinkedIn già ottenuta nel 2019. In sostanza, il fornitore del social network non può impedire alla controparte “dativora” di raccogliere in massa i contenuti dei profili dei propri utenti. Perché tutto questo ci interessa?

Per tre ragioni: innanzitutto perché i dati personali in questione sono anche i nostri, in senso sia effettivo sia empatico. Poi perché nell’Unione europea l’attività sarebbe in linea di massima illecita, il che in un mercato globale ci riguarda. Infine perché la vicenda si inserisce in un più vasto fenomeno di accumulazione, selezione e intelligenza dei dati, con cui occorre misurarsi.

Ricordiamo in proposito il recente caso Clearview AI, su cui si sono pronunciate varie autorità di controllo europee, ad esempio quella del Land di Amburgo, cfr. decisione 545/2020, il CNIL francese, cfr. Decision n° MED 2021-134 del 1° novembre 2021, l’IMY, ossia autorità svedese, cfr. decisione 10 febbraio 2021 (DI-2020-2719), il Garante italiano, con provvedimento del 10 febbraio 2022 [9751362], che ha comminato ordinanza-ingiunzione per venti milioni di euro.

Le implicazioni dell’attività di hiQ Labs appaiono, di primo acchito, meno penetranti nella sfera degli interessati, ma il meccanismo di fondo è il medesimo. La società arricchisce i dati, fa profilazione, e quindi ne commercializza gli esiti. In particolare – apprendiamo dalla sentenza – raccoglie un’ampia selezione di notizie sugli utenti del social network, inclusa storia lavorativa e competenze, che processa attraverso un algoritmo predittivo proprietario, in definitiva una “black box”.

Il web scraping di dati pubblici è legale, Linkedin sconfitta in tribunale: ma il caso non è chiuso

Indice degli argomenti

Guardare non tanto ai dati quanto al trattamento

Come per la vicenda Clearview AI, si ometterebbe il punto decisivo se ci fermasse alla componente autodescrittiva della parola scraping, ossia “raschiare”, “grattare via”, insomma all’acquisizione delle informazioni in quanto tale. Beninteso, la raccolta massiva integra già di per sé un trattamento che, considerato nei termini della normativa eurounitaria, necessiterebbe innanzitutto di una base giuridica, di cui occorre documentare e dimostrare la tenuta. Ma non bisogna fermare l’attenzione ai dati, che pur rappresentano l’elemento macroscopico. Ciò che davvero conta, di regola e qui in particolare, è quello che con i dati si fa, in altre parole l’intelligenza applicata ai dati. E la sottostante finalità.

Le informazioni non a caso sono acquisite, leggiamo sempre nella pronuncia, “in un formato strutturato, che permette successiva manipolazione e analisi”. Se volessimo essere trancianti, potremmo dire che la decisione della Court of Appeals ci espone lo scenario, per noi distopico, di un sistema nel quale non è operativo quel corpo fondamentale di regole e principi costituito dal GDPR. Sono proprio le assenze a restituirci il significato e il valore di ciò che abbiamo. La normativa organica eurounitaria introduce in effetti una rivoluzione copernicana nei rapporti giuridici, costruendoli a partire dalla persona.

Non che la decisione del nono Circuito non affronti il tema privacy, ma lo fa con quella che, guardata dalla nostra sponda, appare un’assoluta leggerezza: dalla circostanza che i dati sono pubblicamente disponibili in rete viene fatto discendere che essi sono dunque legittimamente acquisibili da chiunque e per qualsivoglia finalità, per il bizzarro corollario che se qualcosa è a portata di mano puoi farlo tuo. È un corollario che del resto abbiamo visto all’opera nel comparto pubblico italiano, nonostante qui una rigorosa normativa insegni da un quarto di secolo l’opposto.

Si riflette in questo approccio una nozione di protezione dei dati personali interamente imprigionata in quella di riservatezza, non sviluppata nel senso, giuridicamente maturo, del riconoscimento di un potere informativo, di controllo e decisionale in capo alla persona sui propri dati, in una parola non sviluppata nel senso dell’autodeterminazione. Conta davvero poco che un’informazione sia pubblicamente disponibile, conta invece perché lo è, e nel contesto di quali regole di rispetto dell’interessato lo è. Manca in definitiva nella lettura che emerge dalla pronuncia hiQ Labs la percezione basica del principio di trasparenza e soprattutto di quello di limitazione della finalità, consacrato all’art. 5.1.b) GDPR.

I precedenti del Garante in tema di web scraping

Il principio di limitazione della finalità è talmente definente da avere connotato la normativa di settore fino almeno dalla direttiva 95/46. Non a caso, lo troviamo richiamato o semplicemente sotteso a una serie di provvedimenti, anche risalenti, del nostro Garante, alcuni espressamente dedicati proprio al web scraping. Qui si rivela l’avanzamento, misurabile in anni, maturato dal diritto dell’Unione rispetto a esperienze extra-europee.

Si può citare ad esempio il provvedimento GPDP del 14 gennaio 2016 [6053915], con il quale è stata dichiarata illecita la costituzione di un elenco telefonico non a partire dal d.b.u., ossia dalla base di dati unica degli operatori di comunicazione elettronica, ma costituito assemblando informazioni raccolte automaticamente attraverso script lanciati su determinate fonti online.

Ugualmente, con provvedimento [9105201], correva l’anno 2019, l’Autorità censurava il rintraccio di recapiti per comunicazione elettorale accumulati attraverso scraping di dati sul web. La ragione era così massimata: “L’agevole reperibilità di dati personali in Internet […] non comporta la libera disponibilità degli stessi né autorizza il trattamento di tali dati per qualsiasi finalità, ma – in osservanza ai principi di correttezza e finalità (v. art. 5, par. 1, lett. a) e b), Regolamento) – soltanto per gli scopi sottesi alla loro pubblicazione”. In definitiva, siamo agli antipodi della pronuncia hiQ Labs.

Sarebbe peraltro sbagliato amplificare eccessivamente il significato giuridico della decisione della Court of Appeals, ogni caso essendo legato anche alla strategia processuale che l’ha prodotto. Nella specie, LinkedIn ha ritenuto di far leva su una fonte normativa, il CFAA – Computer Fraud and Abuse Act, contestando una condotta assimilabile, volendo fare un paragone, a quella punita dal nostro art. 615-ter c.p., accesso abusivo a sistema informatico. Lamentava appunto la violazione dei propri server da parte dei bot di hiQ Labs. Costruire diversamente identica doglianza, impostarla, ad esempio – se e in quanto applicabile – sul CCPA potrebbe determinare esito diverso.

In una prospettiva europea di tutela efficace, ci interessa però comprendere l’applicabilità extraterritoriale del GDPR. La chiave a tal proposito va ricercata nel precedente più prossimo, appunto il caso Clearview AI: allora la società, specializzata in soluzioni di intelligenza artificiale basata sul web scraping, era caduta nell’alveo applicativo del diritto dell’Unione. Vediamo rapidamente come e con quali limiti.

Il problema cruciale dell’applicabilità del GDPR oltre l’UE

Qui il passaggio più delicato in effetti è rappresentato proprio dalla difficoltà di individuare, a fronte di una macroscopica violazione dei diritti di residenti europei, un punto giuridico di aggancio per far valere le nostre regole di tutela. Nel caso di Clearview AI, tale aggancio si è rivelato particolarmente difficile e non è detto che la soluzione trovata resista all’eventuale revisione giudiziale. Ci collochiamo davvero alla frontiera applicativa, in senso territoriale, della normativa.

Il punto chiave è che la società ha sede negli USA e non ha stabilimenti europei, quantomeno rispetto al trattamento di web scraping che ci interessa, si trova cioè ben fuori dalla portata del diritto dell’Unione, secondo le regole definite nel paragrafo 1 dell’art. 3 GDPR. Resta da esaminare il secondo paragrafo, quello più audace, quello che proietta la nostra disciplina su un piano tendenzialmente globale.

Ma solo tendenzialmente: è vero che la società in questione raccoglie, combina, compone, arricchisce dati personali di soggetti che si trovano nell’Unione, ed è vero che si tratta di attività assai penetrante in termini di diritti, ma questo potrebbe non bastare. La disposizione richiamata com’è noto individua due criteri per catturare un fenomeno giuridico nella disciplina del Regolamento: quello della direzione di un’offerta di beni o servizi al mercato dell’Unione (ma, tecnicamente, la direzione è agli interessati nell’Unione e non ai titolari del trattamento); e quello del monitoraggio del comportamento di interessati nell’Unione. Il primo aggancio nel caso Clearview AI è apparso assai fragile, mentre il concetto di monitoraggio ha permesso una costruzione più solida, ancorché non necessariamente pacifica.

La stessa logica sarebbe replicabile per un’ipotetica vicenda hiQ Labs portata all’attenzione della nostra autorità di controllo e per altre analoghe. Anche in questi casi, e fatta salva la possibilità, tuttavia esile, di intercettare offerte dirette a interessati nell’Unione, è proprio il concetto di monitoraggio quello che appare decisivo.

Ora, come di regola avviene, i considerando al Regolamento svolgono un ruolo fondamentale nell’interpretazione o meglio nel riempimento normativo.

In particolare, il considerando 24 valorizza, per la nozione di monitoraggio, “l’eventuale ricorso successivo a tecniche di trattamento dei dati personali che consistono nella profilazione della persona fisica, in particolare per adottare decisioni che la riguardano o analizzarne o prevederne le preferenze, i comportamenti e le posizioni personali”.

La formulazione traccia in effetti una distinzione tra attività non profilanti/predittive e attività che lo sono, attraendo in linea di massima le applicazioni di intelligenza artificiale nel perimetro dell’art. 3.2 GDPR. Solo in linea di massima però: la verifica in concreto è necessaria e non permette di formulare criteri generali.

Conclusioni

L’utilizzo di tecniche di web scraping trova un’applicazione potenziata in contesti di intelligenza artificiale e in generale in tutte le ipotesi in cui siano applicate tecniche sofisticate di analisi all’enorme bacino, oggettivamente sussistente, delle informazioni pubblicamente accessibili. È per esempio il caso dell’OSINT, acronimo di Open Source INTelligence. Per facile previsione, torneremo dunque a occuparci di queste tematiche con crescente interesse.

In prospettiva, si pone la necessità di definire il confine delicato tra tutela della persona e attività di trattamento lecite, in un contesto composito e a proiezione tendenzialmente globale.

Un terreno fondamentale diviene allora quello della costruzione di un quadro di tutele condivise oltre l’Unione.

Invero l’altra strada, quella autarchica dell’individuazione di tecniche che espandono l’ambito di applicazione territoriale della nostra normativa, incontra necessariamente dei limiti, sia di costruzione concettuale sia di effettività nella protezione giuridica.

È illusorio ottenere, con le sole forze di questa parte del mondo, che le società cinesi, americane, indiane che estraggono valore dalle informazioni in pubblica circolazione si adeguino alla nostra normativa e ne rispondano.