Lo screen (o web) scraping (da “to scrape”, grattare, raschiare) è una forma di data mining consistente nell’utilizzo di un software per estrapolare in maniera automatizzata dati da determinati siti web e nella loro pubblicazione, eventualmente in forma rielaborata, su un altro sito.
Il software, programmato per accedere ai dati pubblicati online in maniera sistematica e automatizzata, simula la navigazione di un utente, filtra i dati e li archivia in un database.
È una tecnica simile a quella utilizzata dai motori di ricerca che, tramite i cosiddetti crawler o spider, reperiscono automaticamente informazioni già pubblicate su altri siti e forniscono servizi (in questo caso, risultati di ricerca) ai propri utenti.
Lo screen scraping è utilizzato in particolare dai cosiddetti aggregatori per offrire agli utenti la possibilità di confrontare informazioni presenti su siti web differenti. Si pensi a quelle piattaforme che forniscono una lista di hotel e voli aerei, comparando i relativi prezzi proposti nei diversi siti web, al fine di permettere all’utente di scegliere il prezzo migliore.
Indice degli argomenti
Le implicazioni legali dello screen scraping
Ma si tratta di un’attività lecita?
Purtroppo, non è possibile una risposta univoca. Dipende dallo specifico contesto, dalle caratteristiche della banca dati “grattata”, dalla tipologia delle informazioni estratte, dalla loro quantità e qualità, dall’uso che ne viene fatto e dalla specifica modalità di utilizzo.
In astratto, infatti, la tecnica dello screen scraping potrebbe configurare, anzitutto, una violazione della normativa in materia di diritto d’autore, oltreché di proprietà industriale o di protezione dei dati personali.
Il diritto d’autore e i diritti connessi
In teoria, lo screen scraping potrebbe violare:
- l’art. 64 quinquies della l. 641/1941 (“LdA”), che riserva all’autore di una banca dati “creativa” il diritto di vietarne “la riproduzione permanente o temporanea, totale o parziale, con qualsiasi mezzo e in qualsiasi forma […] la traduzione, l’adattamento…qualsiasi presentazione, dimostrazione o comunicazione in pubblico […]”;
- gli artt. 102 bis e seg. LdA, che attribuiscono al cd. “costitutore” di una banca dati (cioè chi ha effettuato investimenti rilevanti per la costituzione o la presentazione della stessa impegnando, a tal fine, mezzi finanziari, tempo o lavoro) il diritto di vietarne l’estrazione, cioè “il trasferimento permanente o temporaneo della totalità o di una parte sostanziale […] su un altro supporto, con qualsiasi mezzo o qualsiasi forma”.
Per quanto riguarda il diritto d’autore e quindi la tutela autorale, la banca dati[1], in attuazione della direttiva 96/9/CE, è stata aggiunta nell’elenco delle opere dell’ingegno meritevoli di tutela di cui all’art. 2 della LdA. Da tale inserimento deriva il riconoscimento al titolare della paternità della banca dati delle tutele di legge civili e penali attribuite agli autori (artt. 64 quinquies e 171 bis).
Per poter beneficiare di tale tutela è però necessario – come specificato dall’art. 1, c. 2 della LdA – che la stessa costituisca, per i criteri della scelta o della disposizione dei materiali, una creazione intellettuale dell’autore. La banca dati, cioè, pur non dovendo essere, secondo la tesi prevalente, oggettivamente caratterizzata da elementi originali ed innovativi tali da distinguerla da qualsiasi altra opera preesistente (nozione oggettiva), deve però presentare l’impronta personale del suo autore (nozione soggettiva di creatività).
Secondo la Suprema Corte, infatti, “l’oggetto della tutela non è necessariamente l’idea in sé, la quale può essere alla base di diverse opere dell’ingegno, bensì la forma particolare che assume a prescindere dalla sua novità e dal valore intrinseco del suo contenuto”[2].
Nello stesso senso anche la Corte di Giustizia dell’Unione Europea (“CGUE”) che, nella sentenza del primo marzo 2012 (causa C-604/10, Football Dataco contro Yahoo), ha riconosciuto che la tutela autorale accordata alle banche dati trova applicazione se, mediante “la scelta o la disposizione del contenuto dei dati in esse contenuti, l’autore esprime “la sua capacità creativa con originalità effettuando scelte libere e creative […] e imprime quindi il suo tocco personale”[3], pur non dovendo “essere effettuata alcuna valutazione della qualità o del valore estetico della banca di dati”.
Gli atti di riproduzione, traduzione, distribuzione ecc. sono però leciti ai sensi dell’art. 64 sexies, c. 2, LdA se “necessari per l’accesso al contenuto della stessa banca di dati e per il suo normale impiego”.
Il diritto “sui generis”
C’è poi la tutela del diritto “sui generis”.
Le banche dati sono protette al di là del loro carattere creativo, quando “il conseguimento, la verifica e la presentazione” del contenuto sono il risultato di “investimenti rilevanti sotto il profilo qualitativo o quantitativo”[4].
Difatti, l’ordinamento ritiene meritevole anche l’interesse del costitutore di un database di essere protetto “dall’indebita appropriazione dei risultati dell’investimento finanziario e professionale effettuato”[5] per la sua realizzazione, laddove privato, eventualmente a causa dello scraping, del relativo valore economico.
Invero, l’art. 102 bis della LDA – “indipendentemente dalla tutelabilità della banca di dati a norma del diritto d’autore” – legittima il cd. “costitutore” di una banca dati a vietare a terzi la “estrazione” o il “reimpiego” della totalità o di una parte sostanziale della stessa[6].
In concreto: il caso Ryanair
La liceità dell’attività in oggetto, come anticipato, deve quindi essere valutata in concreto, caso per caso, sulla base delle caratteristiche della banca dati, del suo rilievo economico, dalle modalità e percentuale di utilizzo dei dati estratti e tenuto conto dei diversi interessi coinvolti.
Nel contenzioso tra Ryanair e i titolari di Volagratis e Lastminute (siti di comparazione e prenotazione voli aerei, che effettuano l’estrazione sistematica ed automatizzata di informazioni di dettaglio sui voli offerti da diverse compagnie aeree), ad esempio, l’attività è stata ritenuta lecita sia dal Tribunale e dalla Corte d’Appello di Milano che dalla Cassazione Civile[7] in quanto è stata esclusa:
- sia la tutela sul piano del diritto d’autore delle informazioni contenute sul sito di Ryanair in quanto “l’organizzazione dei dati si ispira a finalità gestionali ed assolve a funzioni di informazione sui prodotti dell’azienda che gestisce il sito, senza un apprezzabile gradiente di apporto intellettuale creativo”,
- che quella sui generis; in quanto, secondo il giudicante, il fatto che Ryanair concedesse il diritto di estrarre i suoi dati ad un prezzo “simbolico” di € 100,00 dimostrerebbe non tanto l’obiettivo di proteggere tali dati, ma quanto di impedire a terzi di commercializzare i suoi voli.
Nel caso in esame, quindi, nonostante l’indubbio valore economico dei database (che rappresentano ormai veri e propri asset aziendali) la giurisprudenza considera prevalente, sull’interesse delle singole imprese, quello dei consumatori di essere informati ed avere gli strumenti per valutare adeguatamente i servizi e prodotti che vengono offerti online (come un viaggio in aereo, appunto), anche tramite la comparazione con altri servizi/prodotti del medesimo settore merceologico.
Sull’inserimento di divieti pattizi
Altro tema esaminato dai giudici riguarda l’asserita violazione, da parte di Viaggiare e Lastminute, delle condizioni generali di utilizzo del sito – che vietavano lo screen scraping – che sarebbero state accettate, nella prospettazione di Ryanair, tramite la mera consultazione del sito web.
Il Tribunale di Milano ha però escluso la sussistenza di un rapporto negoziale tra le parti in causa, in assenza di un “incontro di reciproci consensi, finalizzati alla accettazione del vincolo pattizio”, necessario invece per la conclusione di un contratto, “che non può considerarsi avvenuto, proprio per le modalità (ritenute subdole dalla convenuta) di estrazione dei dati, finalizzata proprio a sfuggire impegni pattizi” e, quindi, la possibilità di una violazione contrattuale.
Offre uno spunto pratico interessante sul tema la conclusione cui è arrivata la CGUE nella causa C‑30/14, che ha visto scontrarsi sempre Ryanair contro un sito di comparazione e prenotazione voli aerei che “raschiava” le informazioni contenute nei siti web dei vettori europei (PR Aviation).
Per i giudici di Lussemburgo, nella misura in cui una banca dati non sia tutelata né dal diritto d’autore né da quello sui generis, il titolare della stessa può stabilire divieti contrattuali al suo utilizzo da parte di terzi (es. tramite scraping) senza alcun limite, anche oltre quelli fissati dalla direttiva 96/9.
Nulla vieta, infatti, al titolare di un database “fuori” dall’ambito applicativo della direttiva di impedire, tramite le proprie T&C, anche quegli impieghi “normali” o di “parti non sostanziali” che invece detta direttiva garantisce (l’art. 15 sanziona con la nullità le clausole contrattuali che vietano tali usi leciti di banche dati, n.d.r.).
Accorgimenti per tutelarsi dallo screen scraping
In virtù di quanto sopra, l’inserimento nelle T&C dei siti web di clausole che proibiscano espressamente lo screen scraping può costituire un’utile cautela per i proprietari di banche dati, anche se, alla luce di quanto indicato dalla giurisprudenza[8], sarebbe preferibile prevederne l’accettazione espressa da parte degli utenti, come si fa ad esempio con il cookie banner.
Cookie: cosa sono, a cosa servono e quali regole privacy seguire
Ciò, infatti, permetterebbe di innalzare il livello di protezione anche nei casi in cui (come per Ryanair) non sia possibile fare affidamento sulle tutele “autorali”, avendo una carta in più da giocare in un eventuale contenzioso con gli scraper, nei cui confronti si potrebbe comunque agire, in assenza di una clausola contrattuale ad hoc (o qualora questa non sia vincolante nei suoi confronti), per chiedere il risarcimento del danno ai sensi dell’art. 2043 c.c.
Come tutela “sostanziale”, il titolare di un database pubblicato online potrebbe altresì ipotizzare di collocare le informazioni di maggior valore in aree accessibili solo tramite registrazione[9].
Viceversa, chi effettua attività di screen scraping, dovrà, anzitutto, prestare particolare cautela laddove la banca dati altrui, da cui intende “attingere” le informazioni per il proprio sito web, possa presentare un “gradiente creativo” dell’autore o comunque se, alla luce della sua presentazione (catalogo organizzato in maniera sistematica e di facile consultazione, presenza di sezioni informative e riquadri esplicativi, barre di navigazione e di ricerca ecc.), possa quantomeno presumersi che il titolare della banca dati abbia fatto investimenti importanti.
Inoltre, dovrà sincerarsi che la propria attività di raschiamento non riproduca marchi altrui[10] e non riguardi dati personali[11], contenuti protetti da copyright, come una fotografia o un articolo, o materiale illecito (ad es. perché a sua volta viola il diritto d’autore altrui, poiché diffamatorio ecc.)[12].
Lo scraper, se aggregatore di news, dovrà altresì tener conto, una volta implementata in Italia, della digital single market directive[13].
L’approvazione di tale nuovo atto legislativo di rango sovranazionale, dopo la 96/9 di cui sopra e la nota InfoSoc[14], dimostra ulteriormente la situazione di incertezza giuridica che interessa il fenomeno in analisi.
NOTE
Per “banca dati” si intende una “raccolta di opere, dati o altri elementi indipendenti sistematicamente o metodicamente disposti ed individualmente accessibili mediante mezzi elettronici o in altro modo” (punto 9) dell’art. 2 LdA) ↑
Così la Cass. Penale, sez. III, n. 6734/2018, “la tutela in tal modo apprestata a protezione degli archivi (elettronici e cartacei) che proprio per la natura dell’opera non si applica al contenuto in sé, bensì al metodo utilizzato per mettere insieme i dati e dunque al suo stesso funzionamento, implica necessariamente perciò che si tratti di una creazione intellettuale del proprio autore, fuoriuscendosi diversamente dall’ambito di operatività della L. n. 633 del 1941”, oltreché, sempre Cass. Penale, sez. III, nn. 300472018 e 8011/2012 e, in sede civile, Cass., sez. I, n. 15496/2004. ↑
La CGUE precisa che, “per stabilire se una banca di dati sia tutelabile o meno in base al diritto d’autore”, non dovranno essere applicati altri criteri diversi da quello di originalità di cui al considerando 16 della direttiva 96/9/CE, “e in particolare non dovrà essere effettuata alcuna valutazione della qualità o del valore estetico della banca di dati”, richiamando, per analogia, le sentenze del 16 luglio 2009, Infopaq Inter national, C-5/08, del 22 dicembre 2010, Bezpečnostní softwarová asociace, C-393/09 e del primo dicembre 2011, Painer, C-145/10. ↑
La protezione della banca dati “non creativa” ha durata di 15 anni a partire dal primo gennaio dell’anno successivo al completamento della banca dati, eventualmente rinnovabili per importanti interventi con investimenti ↑
Così il considerando 39 della direttiva 96/9/CE). ↑
Sulla nozione di “parte sostanziale” si rimanda alla sentenza 7825/2013 del Tribunale Sez. Proprietà Industriale e Intellettuale di Milano: “La definizione di “parte sostanziale” impone la considerazione tanto di criteri quantitativi che qualitativi. Sotto il primo profilo il riferimento è al volume dei dati estratti […] e deve essere valutata in relazione al volume del contenuto totale della stessa […] Sul secondo versante, per la giurisprudenza della Corte di Giustizia, la nozione di parte sostanziale, valutata dal punto di vista qualitativo, del contenuto di una banca di dati tutelata si riferisce alla rilevanza dell’investimento collegato al conseguimento, alla verifica o alla presentazione del contenuto dell’oggetto dell’operazione di estrazione e/o di reimpiego, indipendentemente dal fatto che tale oggetto rappresenti una parte quantitativamente sostanziale del contenuto generale della banca di dati tutelata. Una parte quantitativamente trascurabile del contenuto di una banca di dati può infatti rappresentare, in termini di conseguimento, di verifica o di presentazione, un considerevole investimento umano, tecnico o finanziario”.
Il costituire può vietare l’“estrazione” o il “reimpiego” (se effettuate in modo ripetuto e sistematico) di porzioni non sostanziali “qualora presuppongano operazioni contrarie alla normale gestione della banca di dati o arrechino un pregiudizio ingiustificato al costitutore” ↑
Per quanto concerne il primo grado, si rinvia alla già citata sentenza 7825/2013 del Tribunale Sez. Proprietà Industriale e Intellettuale di Milano (riguardante Viaggiare) ed alla sentenza gemella dello stesso giudicante (la n. 7808/2013 riguardante Lastminute) e, in sede di legittimità, alla Cass. Civ. Sez. I, nn. 29237 e 29238 del 12 novembre 2019.
Tra l’altro, la controversia de qua ha riguardato anche altre tematiche importanti, quale quella dell’uso non consentito e anticoncorrenziale del marchio e dell’abuso di posizione dominante in capo a Ryanair, quest’ultimo riconosciuto dalla Cassazione.
A tal proposito, il Tribunale di Milano ha ritenuto che la condotta di Ryanair di limitare le attività di siti web che, grazie allo scraping, erogano servizi di acquisto e comparazione voli, rilevi ai fini della normativa concorrenziale: “non va infatti dimenticato che anche un diritto assoluto di proprietà intellettuale deve essere esercitato per le finalità per cui l’ordinamento lo riconosce, a premio degli sforzi di investimento ed innovazione compiuti dal titolare, e non per creare artificiali ripartizioni del mercato o pregiudicare la concorrenza nella Comunità (cfr. Corte Giust. 6/4/95 in C-241/91 e C-242/91, caso Magyll).” ↑
che, tra l’altro, sottolinea anche un altro aspetto, ossia che talune clausole potrebbero incorrere in nullità anche per violazione della disciplina consumeristica laddove lo “scraper” (come i siti di comparazione e acquisto voli aerei) stia agendo come “intermediario” di un consumatore. ↑
In questo caso, infatti, la condotta dello scraping potrebbe integrare il reato dell’accesso abusivo ad un sistema informatico di cui all’art. 615 ter c.p. ↑
Ossia quello in violazione dell’art. 20 del d. lgs. 30/2005. che attribuisce al titolare del marchio d’impresa registrato la facoltà di farne un uso esclusivo (diritto di privativa), in particolare laddove non effettuato a fini meramente descrittivi (es. per comparare i prezzi tra vari prodotti). ↑
Come ribadito più volte dal Garante privacy, la circostanza per la quale dati personale siano “pubblici”, ossia diffusi online (es. pubblicati su un profilo social o nella sezione “amministrazione trasparente” del sito di una PA), non ne autorizza il trattamento per qualsiasi scopo, ma soltanto per le specifiche finalità sottese alla loro pubblicazione; “l’agevole rintracciabilità di dati personali in Internet (quali numeri di telefono o indirizzi di posta elettronica) non equivale a libera utilizzabilità” (Linee guida in materia di attività promozionale e contrasto allo spam” del 4 luglio 2013).
In materia, si registrano le linee guida sul web scraping (e sul riuso di informazioni pubbliche) dell’autorità di controllo francese (CNIL) del 30 aprile 2020. ↑
Si potrebbe addirittura configurare, almeno in astratto, una “responsabilità da link” del sito aggregatore, laddove questo rimandi ad altra pagina web dove è tenuta la condotta contra legem; in merito, CGUE, sentenza del 12 febbraio 2014, C-466/12, Svensson e sentenza dell’8 settembre 2016, C‑160/15, GS Media, sentenza del 26 aprile 2017, C‑527/15, Stichting Brein. ↑
Direttiva (UE) 2019/790, sul diritto d’autore e sui diritti connessi nel mercato unico digitale e che modifica le direttive 96/9/CE e 2001/29/CE. Tra i vari profili oggetto di disciplina, anche quello in questione, rispetto a cui il Legislatore europeo si è posto l’obiettivo di “introdurre “limitazioni o eccezioni obbligatorie per l’uso di tecnologie di estrazione di testo e di dati (text and data mining), per finalità illustrative ad uso didattico in ambiente digitale e per la conservazione del patrimonio culturale”. ↑
Direttiva 2001/29/CE del Parlamento europeo e del Consiglio, del 22 maggio 2001, “sull’armonizzazione di taluni aspetti del diritto d’autore e dei diritti connessi nella società dell’informazione” (da qui “Infosoc”). ↑