Web scraping indiscriminato, i dati non sono in rete per addestrare l’AI: l’indagine del Garante privacy

Il Garante privacy ha avviato un’indagine conoscitiva sui siti internet pubblici e privati per verificare l’adozione di misure di sicurezza adeguate a impedire la raccolta massiva di dati personali usati per addestrare gli algoritmi di intelligenza artificiale. Un’iniziativa pioneristica che potrebbe avere serie ripercussioni su un mercato in piena ascesa. Ecco perché

Pubblicato il 23 Nov 2023

Massimo Borgobello

Avvocato a Udine, co-founder dello Studio Legale Associato BCBLaw, PHD e DPO Certificato 11697:2017

L’indagine conoscitiva promossa dall’Autorità Garante per il trattamento dei dati personali si pone come antecedente necessario per altre iniziative a contrasto del web scraping indiscriminato: è necessario capire, infatti, quali misure di prevenzione siano state adottate, o verranno adottate, da siti pubblici e privati per evitare la raccolta massiva ed indiscriminata dei dati, prima di procedere con altre iniziative finalizzate a impedire la pratica.

Indice degli argomenti

Il “nodo” del training: i dati non sono in rete per addestrare l’AI

Il comunicato stampa dell’Autorità Garante per il trattamento dei dati personali parla chiaro: “L’indagine conoscitiva riguarda tutti i soggetti pubblici e privati, operanti quali titolari del trattamento, stabiliti in Italia o che offrono in Italia servizi, che mettono a disposizione on-line dati personali liberamente accessibili anche dagli “spider” dei produttori di algoritmi di intelligenza artificiale”.

L’Autorità sottolinea come sia “nota l’attività di diverse piattaforme di IA, le quali attraverso il web scraping raccolgono, per differenti usi, enormi quantità di dati anche personali pubblicati per specifiche finalità (cronaca, trasparenza amministrativa ecc.) all’interno di siti internet gestiti da soggetti pubblici e privati”.

Il tema è il seguente: i contenuti che vengono messi in rete sono pubblicati per finalità determinate; tra queste non rientra l’addestramento dele intelligenze artificiali.

Se una rivista pubblica un articolo, lo fa per informazione o per divulgazione; se una pubblica amministrazione immette dati nel proprio sito internet, lo fa per la fruizione dei servizi ai cittadini o per gli obblighi imposti dalla legge (ad esempio, l’amministrazione trasparente).

In nessun caso un contenuto – con i relativi dati – viene pubblicato per effettuare il training delle intelligenze artificiali.

Le implicazioni per gli utenti e per le aziende

Lato utente, la questione rileva per l’esercizio del diritto all’oblio: un dato – ad esempio di cronaca giudiziaria – inserito in una farm di intelligenza artificiale può, potenzialmente, rimanere indefinitamente nei server delle big tech.

Sotto il profilo aziendale, invece, si pone un problema di compliance con il GDPR: se i siti internet non sono adeguatamente protetti, si rischia la violazione degli articoli 25 e 32 del Regolamento, per non aver adottato misure idonee a tutelare gli interessati.

Un’azienda che opera in un contesto poco “sensibile” avrà obblighi minori, ma le pubbliche amministrazioni e i siti che trattano notizie di cronaca dovranno attrezzarsi in fretta, se non lo hanno già fatto.

Le misure per il filtraggio del traffico da siti di AI

L’esempio arriva dal New York Times che, ancora una volta, è capofila nelle scelte innovative in tema di editoria: l’annuncio di aver iniziato a implementare misure anti-AI arriva direttamente da oltreoceano.

Secondo Matteo Greatti, CEO di GFTech SRL ed esperto di cyber security, le prima misura da poter implementare consiste nel filtraggio di tutto il traffico in arrivo da siti di AI verso il proprio sito, con tecnologie come reverse proxy o similari.

Conclusioni

Ovviamente, questo comporterebbe, come effetto collaterale di macrosistema, l’impossibilità per le AI di accedere a una miriade di dati che consentono di avere “macchine” altamente performanti.

Va anche detto che un dato pubblico è un dato pubblico: un blocco del genere richiederà, se verrà effettivamente imposto, contrappesi adeguati.

Non c’è, infatti, alcuna ragione per cui un archivio di giornale debba restare intatto nel tempo – anche in caso di diritto all’oblio – a prescindere da ogni situazione sopravvenuta, per finalità di consultazione, ricerca e memoria storica e non per addestramento di AI.

La scelta del Garante italiano è – ancora una volta e per fortuna – pionieristica: in modo corretto l’Autorità ha avviato un’indagine conoscitiva e una consultazione con gli esperti in materia.

In questo caso, il dibattito e le conclusioni a cui si arriverà in seguito a esso potranno avere serie ripercussioni su un mercato in piena ascesa e, forse, sul “futuro” in senso stretto.