A distanza di un anno e qualche mese da quella rilasciata lo scorso agosto 2023, è stata pubblicata una nuova Dichiarazione congiunta conclusiva sul data scraping e la tutela della privacy.
Si tratta di una seconda, nuova e conclusiva dichiarazione più ampia di quella iniziale, che intende affrontare le sfide poste dallo “scraping illecito dei dati e gli aspetti di privacy e protezione dei dati relativi alle informazioni personali accessibili pubblicamente su Internet” alla luce dell’addestramento dei modelli di intelligenza artificiale, i cd Large Language Models (LLM).
Spieghiamo meglio.
Indice degli argomenti
Data scraping e privacy: gli elementi di novità
Il fenomeno del data scraping illecito è sempre più in agguato e, in quanto tale, richiede un innalzamento delle misure di protezione. Un’azione che deve essere attiva. Pertanto, le organizzazioni vengono incoraggiate a “implementare una combinazione di misure di salvaguardia per proteggersi efficacemente dallo scraping illecito”.
Si tratta di misure da rivedere e aggiornare costantemente che richiedono appunto un monitoraggio continuo per rimanere al passo con le nuove tecnologie.
A maggior ragione con l’IA specie nell’addestramento dei modelli IA che deve essere necessariamente conforme.
Infatti, le organizzazioni che utilizzano dataset ottenuti tramite scraping o dati dalle proprie piattaforme per addestrare l’IA, come i Large Language Models – LLM, sono tenute a essere conforme (compliant qualcosa di più) alle leggi in materia di protezione dati e all’AI Act, ovvero a linee guida e altre fonti anche di secondo livello come le linee guida che via via pubblicate.
L’IA, sebbene venga utilizzata da alcuni scraper sofisticati per eludere la rilevazione, può anche essere parte integrante della soluzione, potenziando le protezioni contro lo scraping illecito; quindi, un utile strumento di difesa.
Ancora, mentre la dichiarazione iniziale è stata pubblicata da 12 membri dell’International Enforcement Working Group (IEWG) e approvata da altri due membri a seguito della sua pubblicazione, quella conclusiva è approvata da 16 cofirmatari.
Cos’è il data scraping
Il data scraping o web scraping è una tecnica informatica che consiste nell’estrazione automatica di dati dai siti web. Insomma, una pesca a strascico. In pratica, viene individuato un sito web o una serie di siti web da cui estrarre i dati, analizzando la struttura (codice HTML) del sito, il programma poi “legge” il codice e seleziona solo i dati rilevanti (come prezzi, descrizioni di prodotti, recensioni, ecc.), e infine organizza i dati (estratti)in un formato strutturato, come un foglio di calcolo o un database, per facilitarne l’analisi.
Gli usi del data scraping sono molteplici dalle ricerche di mercato al monitoraggio dei prezzi, alla creazione di database e analisi dei sentiment. Il web scraping di per sé non è illecito, ma lo diventa facilmente specie quando raccoglie indiscriminatamente i dati anche personali, su internet, con lo scopo di addestrare i modelli di Intelligenza artificiale generativa (IAG).
Al riguardo, ricordiamo che il nostro Garante privacy, lo scorso mese di maggio 2024, ha pubblicato una serie di indicazioni su “come difendere i dati personali pubblicati online da soggetti pubblici e privati in qualità di titolari del trattamento dal web scraping”.
Data scraping: cosa non cambia tra le due dichiarazioni
Vediamo ora le due dichiarazioni a confronto. Posto che la dichiarazione congiunta iniziale sullo scraping dei dati e la protezione della privacy (dell’agosto 2023) aveva stabilito, come si legge testualmente “le aspettative in merito a ciò che le organizzazioni dovrebbero fare per garantire che le persone siano protette dai rischi derivanti dallo scraping illegale”, la dichiarazione conclusiva ne rafforza i requisiti, condividendo “le migliori pratiche e le lezioni apprese attraverso gli impegni con le SMC e le parti interessate del settore”.
Entrambe le dichiarazioni riguardano lo scraping dei dati sotto forma di “estrazione automatizzata di dati personali dal web”, e non riguardano l’indicizzazione da parte dei motori di ricerca, né lo scraping di informazioni non personali.
É bene precisarlo, come si legge testualmente nella dichiarazione in parola.
Ulteriore precisazione. Sebbene entrambe le dichiarazioni non siano rivolte ai cd data scraper, quelli commerciali devono tenere ben presente che “i dati personali accessibili al pubblico saranno generalmente soggetti alle leggi sulla protezione dei dati e sulla privacy e, in quanto tali, dovrebbero implementare misure per conformarsi a tali leggi”.
Da qui, la tutela della privacy/data protection, imprescindibile in ogni contesto.
Data scraping: punti chiave della dichiarazione conclusiva
Vediamo ora i punti chiave.
Linee guida per piccole e medie imprese
Le PMI stante che raramente dispongono delle stesse risorse finanziarie o capacità tecniche delle grandi imprese globali, in ogni caso non le esonera da una loro eventuale responsabilità in mancanza di una efficace protezione dal fenomeno di “web scraping illegale”.
Di qui, la necessita di essere protetti da una combinazione multilivello di controlli tecnici e procedurali contro lo scraping dei dati, dal momento che molte PMI ospitano grandi quantità di dati personali accessibili al pubblico.
Alcuni di questi strumenti, specifica la Dichiarazione (conclusiva) “come il rilevamento dei bot, la limitazione della velocità e i CAPTCHA”, sono accessibili alle PMI dal budget più modesto. Tuttavia, spiega bene la dichiarazione per mano dei co-firmatari, “il coinvolgimento di un fornitore di servizi di terze parti non assolve l’Organizzazione dalla propria responsabilità in materia di protezione dei dati personali”.
Ne consegue che la chiave ancora una volta è data dalla limitazione della quantità e da un aumento significativo in termini di consapevolezza circa la sensibilità delle informazioni rese pubblicamente accessibili da proteggere massimamente dallo scraping illegale.
Scraping consentito dalle società di social media e scraping legale
Diverse società dell’informazione (SMC) hanno rappresentato, in talune circostanze, di consentire il web scraping o altre forme di raccolta massiva di dati dalle loro piattaforme (ad esempio, attraverso l’accesso API, discusso più avanti), “a sostegno dei propri interessi commerciali o di terzi, come quelli associati alla gestione della piattaforma”.
Tuttavia, i co-firmatari osservano che “le clausole contrattuali non possono di per sé rendere lecita la raccolta dei dati” e fanno un esempio, di quando le organizzazioni dovendo poggiare su una base giuridica valida ai sensi del GDPR (art. 6) al fine di poter concedere l’accesso o consentire la raccolta di dati personali, sono anche tenuti a essere trasparenti in merito allo scraping consentito e di ottenere il consenso ove richiesto dalla legge.
Ma non basta: infatti, precisano ancora che “mentre le clausole contrattuali sono un’importante salvaguardia contro lo scraping illegale, una clausola contrattuale che indichi che le terze parti devono rispettare le leggi applicabili non è sufficiente”.
Di qui, l’obbligo per le organizzazioni di implementare “misure adeguate per garantire che l’uso contrattualmente consentito dei dati personali raschiati sia conforme alle leggi applicabili in materia di protezione dei dati e privacy”.
E come farlo? Attraverso un contratto che ben specifichi le limitazioni alle informazioni che possono essere estratte nonché le finalità per le quali possono essere utilizzate, oltre all’indicazione delle conseguenze in caso di mancato rispetto di tali termini.
Il tutto unitamente all’attuazione di misure volte a monitorare il rispetto delle limitazioni contrattuali da parte di terzi e per far rispettare tali termini.
Accesso ai dati per la ricerca e altri scopi socialmente utili
La dichiarazione procede poi dicendo come “in determinate circostanze, le PMI possono essere tenute per legge a fornire a terzi, come i ricercatori, l’accesso su larga scala ai dati accessibili al pubblico sulle loro piattaforme”.
Tuttavia, è emerso che ciò lo fanno anche in altre circostanze, anche quando cioè non sussiste alcun obbligo legale in tal senso (ad esempio, a sostegno della ricerca socialmente utile).
Allora i co-firmatari pur riconoscendo l’importanza della ricerca socialmente utile, rammentano agli SMC e ad altre organizzazioni ospitanti dati personali accessibili al pubblico che, “quando consentono l’accesso o la raccolta su larga scala, le organizzazioni devono garantire di rispettare le leggi applicabili in materia di protezione dei dati e privacy” e ciò può avvenire grazie a una solida base giuridica garantita da ravvisarsi nella “finalità di interesse pubblico, di ricerca o statistiche come eccezione al requisito del consenso o come base giuridica per il trattamento dei dati personali”.
Non solo, i co-firmatari precisano ancora che, “laddove sia lecito consentire l’accesso o la raccolta su larga scala, le API possono rappresentare un’ulteriore salvaguardia contro lo scraping illecito”.
Tale misura potrebbe essere quella di “offrire all’host un maggiore controllo sui dati sulla sua piattaforma e facilitare il rilevamento e la mitigazione degli accessi non autorizzati, tramite l’uso di credenziali e la registrazione e il monitoraggio delle attività associate”.
Utilizzo di dati “raschiati” per lo sviluppo dell’intelligenza artificiale
I co-firmatari hanno poi colto, leggiamo direttamente nella Dichiarazione “l’opportunità offerta da questa iniziativa per impegnarsi con le SMC in merito al proprio scraping dei dati e all’uso di set di dati raschiati per addestrare i loro modelli linguistici di grandi dimensioni, che presentano non solo opportunità di innovazione ma anche significativi rischi per la privacy”.
Sulla base di quanto appreso, è possibile “utilizzare dati personali raschiati o dati raccolti dalle proprie piattaforme per lo sviluppo, il funzionamento e l’implementazione di sistemi di intelligenza artificiale generativa”, ma attenzione nel pieno rispetto della privacy/data protection.
Sfide e soluzioni per stare al passo con i progressi del data scraping
Come per la dichiarazione iniziale cui si rinvia, molte delle raccomandazioni rappresentano requisiti di legge.
Un punto fondamentale della dichiarazione iniziale è che “i dati personali accessibili al pubblico sono ancora soggetti alle leggi sulla protezione dei dati e sulla privacy nella maggior parte delle giurisdizioni. Le SMC e gli operatori di siti web che ospitano dati personali accessibili al pubblico hanno l’obbligo, ai sensi delle leggi sulla protezione dei dati e sulla privacy, di proteggere le informazioni personali sulle loro piattaforme dallo scraping illegale”.
Approccio multilevel
Occorre un approccio multilevel, nel senso che più livelli al fine di proteggere i dati accessibili al pubblico sulle loro piattaforme dallo scraping illegale.
In concreto, le SMC hanno confermato di aver implementato molte delle misure identificate già nella dichiarazione iniziale, come per esempio:
- Designazione di un team e/o ruoli specifici all’interno dell’Organizzazione per sviluppare e implementare controlli per proteggere, monitorare e rispondere alle attività di scraping.
- “Limitazione della velocità” del numero di visite orarie o giornaliere da parte di un account ad altri profili di account e limitazione dell’accesso se viene rilevata un’attività insolita.
- Monitoraggio della velocità e aggressività con cui un nuovo account inizia a cercare altri utenti.
- Adozione di misure per rilevare l’attività degli scraper e dei “bot”, come l’utilizzo di CAPTCHA e il blocco degli indirizzi IP in cui tale attività è identificata.
Poi, nel caso in cui lo scraping dei dati sia sospettato e/o confermato, determina l’adozione di azioni legali appropriate, come l’invio di lettere di “cessazione e desistenza”, con la richiesta di cancellazione delle informazioni estratte e l’ottenimento della conferma della cancellazione.
Ulteriori misure
Ulteriori misure rispetto a quelle descritte nella dichiarazione iniziale, come, ad esempio:
- Implementazione di elementi di progettazione della piattaforma che rendono più difficile lo scraping dei dati utilizzando l’automazione (ad esempio, URL di account casuali, elementi di progettazione dell’interfaccia casuali e strumenti per rilevare e bloccare il traffico Internet dannoso).
- Utilizzo di una IA non solo per raschiare i dati in modo più efficace (ad esempio, tramite bot “intelligenti” in grado di simulare l’attività reale dell’utente), ma anche per rilevare e proteggere meglio dallo scraping non autorizzato, evidenziando che anche gli strumenti di intelligenza artificiale innovativi possono essere parte della soluzione.
Insomma, stiamo a vedere gli ulteriori sviluppi.