Web scraping, aggiornamenti sulla disciplina: ecco cosa impariamo dal caso LinkedIn

La recente decisione USA sul caso LinkedIn/hiQ Labs offre l’occasione per analizzare alcuni aggiornamenti sulla disciplina del web scraping e sul trattamento dei dati personali pubblici condivisi dai siti web e sui social network. Ecco i punti cardine

Il web scraping è una forma di data mining, in cui – utilizzando programmi informatici denominati bot – si simulano attività di ricerca umane finalizzate ad estrarre e raccogliere grandi quantità di dati dai siti web.

Per capire l’importanza di questa tecnica, basti dire che su di essa si fondano i vari servizi online di comparazione, come quelli dei viaggi, delle assicurazioni, e così via.

Web scraping e protezione dei dati personali: quali sono i limiti applicativi del GDPR

Indice degli argomenti

Web scraping: il caso LinkedIn

Nel caso LinkedIn/hiQ Labs, recentemente deciso dalla Corte d’appello del Ninth Circuit, le attività di web scraping venivano svolte dalla società hiQ Labs, che estraeva dal sito di LinkedIn le informazioni postate dagli utenti, per poi costruire profili di dati in grado di profilare gli stessi e fra l’altro prevedere quando un dipendente avesse maggiori probabilità di lasciare un’azienda.

LinkedIn ha adottato diverse misure tecniche di protezione dirette a impedire il web scraping di hiQ Labs, finché quest’ultima ha agito in giudizio per ottenere il riconoscimento della liceità della propria attività. La decisione della Corte d’Appello ha dato ragione a hiQ Lab, come peraltro aveva già fatto il Tribunale di primo grado.

La Corte ha infatti ritenuto che l’accesso fosse lecito, in quanto riguardava dati disponibili pubblicamente e non protetti da password. Pertanto, non vi potrebbe essere alcuna violazione del Computer Fraud and Abuse Act statunitense.

Alcuni commentatori hanno salutato con favore la sentenza, osservando che dare a società come LinkedIn la possibilità di decidere chi può raccogliere e utilizzare i dati potrebbe favorire la creazione di monopoli sull’informazione che potrebbero rilevarsi dannosi per la società nel suo complesso.

Secondo altri, invece, il web scraping dovrebbe essere limitato, e questo in particolare quando esso tratti dati personali senza il consenso degli utenti (tema su cui torneremo più avanti). Inoltre, il web scraping potrebbe entrare in conflitto con la protezione dei diritti di proprietà intellettuale ovvero violare legittime regole contrattuali.

I sostenitori di questa seconda posizione, che sostanzialmente ritiene legittima la limitazione delle attività di web scraping, sono soprattutto i commentatori europei. Del resto, in Europa la questione dell’appropriabilità dei dati (fenomenale ricchezza del nostro tempo) si è da tempo posta in termini di forte conflittualità fra chi sostiene la necessità di liberalizzare il più possibile l’accesso e la circolazione delle informazioni, e chi invece ritiene lecita a opportuna la creazione di diritti esclusivi o comunque di barriere all’utilizzazione.

Web scraping e proprietà intellettuale

Il primo livello della partita si è giocato sul terreno della proprietà intellettuale, ove come noto l’Europa ha introdotto nel 1996 la direttiva sulla protezione delle banche di dati, con cui si è prevista una protezione di diritto esclusivo (cd. “sui generis”) a favore dei costitutori di banche di dati non creative, a condizione che queste richiedessero un investimento rilevante.

Negli Stati Uniti la protezione di diritto esclusivo è stata esaminata ed esclusa, a favore del mantenimento di una protezione puramente concorrenziale, nel convincimento, già da allora, che nel settore delle informazione fosse opportuno evitare il rischio di creazione di monopoli.

Va detto che le regole europee conoscono dei correttivi. Anzitutto, la protezione non cade mai sulla singola informazione, bensì sull’insieme delle informazioni o una loro parte sostanziale, anche se è comunque vietata l’estrazione o il reimpiego ripetuti e sistematici anche di parti non sostanziali.

Inoltre, la giurisprudenza della Corte di giustizia ha chiarito che non si può avere protezione se la banca di dati non è oggetto di un investimento rilevante di per sé stessa, ma è un “sottoprodotto” di altri investimenti, strumentali allo svolgimento di un’attività principale di altro tipo: come avviene per esempio nel settore del trasporto aereo, dove le banche di dati sui voli sono un “sottoprodotto” degli investimenti effettuati per la gestione dell’attività di trasporto stessa.

Chiarire le condizioni d’uso dei dati

Negata nella maggioranza dei casi la protezione di diritto esclusivo, lo scontro si è spostato sul livello contrattuale. Così, nel caso Ryanair v. PR Aviation BV (C-30/14), deciso nel 2015, la Corte di giustizia – pur riconoscendo l’inapplicabilità delle norme sul diritto sui generis alla banca dati dei voli di Ryanair, in quanto mancante di un investimento rilevante – ha ritenuto che il web scraping di PR Aviation BV fosse vietato dalle condizioni d’uso del sito di Ryanair, le quali impedivano l’utilizzo di qualsiasi sistema automatico di estrazione dei dati.

Queste condizioni d’uso dovevano essere accettate dall’utente del sito, spuntando e cliccando su apposita casella, prima che fosse consentito l’accesso ai dati e per conseguenza erano valide e vincolanti, in quanto l’utente ne era a conoscenza o comunque avrebbe dovuto esserne a conoscenza secondo l’ordinaria diligenza.

Giurisprudenza successiva ha tuttavia corretto questo principio, perlomeno nei casi in cui l’operatore detenesse una posizione dominante (v. Cassazione, sentenza n. 29238/2019, caso Ryanair c. Viaggiare), ritenendo che la clausola di divieto avesse natura abusiva e dovesse quindi essere considerata invalida, poiché essa impediva ai terzi di comparare, visualizzare ed intermediare le tariffe dei voli.

Parte dei commentatori è poi andata oltre, sostenendo che le clausole di divieto contenute nelle condizioni d’uso per l’accesso ai siti internet possano essere considerate inefficaci, sia perché mancherebbe l’accordo fra le parti, sia perché esse consentirebbero in sostanza la creazione di un diritto esclusivo sui dati, che tuttavia l’ordinamento non ammette, in assenza del requisito della creatività e/o dell’investimento rilevante.

Altri commentatori ed altre decisioni hanno invece posto l’accento sulla necessità che le clausole di limitazione all’accesso presenti nella condizioni d’uso, per poter validamente impedire l’attività di web scraping, debbano essere supportate da adeguate misure tecniche di protezione (BGH, decisione 30.4.2014, caso Flugvermittlung).

Un approccio restrittivo alla protezione delle informazioni

Gli ultimi spunti interpretativi ora citati mostrano una parziale convergenza fra le posizioni statunitensi e quelle europee.

In entrambe si sottolinea la necessità di adottare un approccio restrittivo alla protezione dell’informazione, e si valorizza l’opportunità di richiedere – perché la tutela operi – un’azione protettiva da parte del titolare del sito, che dovrebbe quindi adottare misure tecniche adeguate.

Tuttavia, la natura dei siti che mirano a proteggersi dalle attività di web scraping è in genere tale da rendere difficilmente applicabili queste misure, dal momento che esse impatterebbero sulla accessibilità delle informazioni da parte dei potenziali acquirenti. Con la conseguenza che il titolare del sito, volendo mantenere massima la visibilità dei suoi dati, viene costretto ad accettare la possibilità di web scraping.

Del resto, un indice a favore della opportunità di concedere ambia accessibilità ai dati deriva anche dall’esame degli ultimi sviluppi normativi dell’Unione Europea: secondo infatti l’art. 4 della direttiva 2019/790 gli Stati membri devono prevedere un’eccezione ai diritti esclusivi d’autore che consenta la riproduzione e l’estrazione di dati.

L’eccezione non opera solo quando l’utilizzo delle opere è stato espressamente riservato dai titolari dei diritti in modo appropriato, il che potrebbe avvenire attraverso appositi strumenti informatici.

La disposizione sembra dunque deporre a favore di una ampia utilizzabilità di tutto ciò che sia pubblicamente accessibile online, e reciprocamente richiedere che per escludere tale utilizzabilità il titolare dei diritti debba porre in essere azioni maggiori rispetto al semplice inserimento di una clausola di limitazione all’utilizzo all’interno di condizioni d’uso per l’accesso al sito. Se ciò vale per i titolari di diritti d’autore, a maggior ragione dovrebbe valere per chi non sia titolare di alcun diritto esclusivo.

GDPR, una protezione tra rischi e pericoli per le persone fisiche e per l’economia

Il web scraping e il ruolo del GDPR

Le considerazioni che precedono, e che inducono a ritenere sostanzialmente corretta in generale la decisione della corte statunitense nel caso LinkedIn/hiQ, necessitano tuttavia di un correttivo, che riguarda la natura particolare dei dati in questione nel caso di specie, ossia dati personali di persone fisiche.

In questo ambito entra in gioco un’ulteriore normativa, relativa alla protezione della privacy degli utenti (GDPR), in base alla quale la circostanza che i dati siano pubblicati in Internet non ne comporta la libera disponibilità né ne autorizza il trattamento per qualsiasi finalità, ma soltanto per gli scopi sottesi alla loro pubblicazione.

Ne consegue che per questa particolare categoria di dati – ossia, quelli personali – il web scraping diviene illegittimo al di qua dell’Atlantico, nella misura in cui manchi il consenso dell’interessato, non vi sia alcun contratto fra le parti, e non sia possibile dimostrare la sussistenza di un legittimo interesse in capo al servizio di web scraping (sul punto il Garante Privacy italiano ha mostrato di applicare la fattispecie del legittimo interesse in senso correttamente restrittivo: si veda in particolare l’ordinanza ingiunzione nei confronti di Clearview AI del 10 febbraio 2022, con cui il Garante ha vietato e sanzionato il trattamento di dati finalizzati al riconoscimento facciale svolto dalla società Clearview, escludendo che sussistesse un legittimo interesse).