Presunti numeri di Mattarella, Meloni e altri personaggi pubblici in libera vendita sul web: il caso indigna molti in queste ore, ma probabilmente non c’è stato nessun furto. Né un problema di cyber security.
Di privacy violata però, forse, sì.
Com’è noto, una segnalazione pubblica di un esperto ha aperto un’indagine della Polizia Postale, ancora con contorni da verificare, per la presenza di numeri e altri contatti di personaggi pubblici italiani in vendita sul web.
La spiegazione più probabile però è che non si tratti di un attacco informatico né di un data breach di un database istituzionale ma il risultato di una raccolta di informazioni da fonti pubbliche da parte di aziende specializzate in lead generation.

Indice degli argomenti
Furto di numeri di cellulari
Si può arrivare a questa conclusione mettendo assieme alcuni indizi. Prima su tutto, la scelta dell’Agenzia per la cybersecurity, in più occasioni su Linkedin, di smontare il caso: non solo prima che scoppiasse a livello mediatico (“è una bufala” ha scritto dal profilo Linkedin), ma anche dopo, ancora ieri sera, confermando la pista raccolta dati massiva.
In più, è significativo che gli esperti cyber hanno mostrato, in via generalizzata, scetticismo sul caso e hanno piuttosto orientato l’attenzione su una possibile causa per quei data base: il web scraping. Che si tratti di questo, quindi raccolta massima a strascico, ce lo confermano inoltre altri noti esperti, come Alessio Pennasilico del Clusit e Dario Fadda, esperto di cyber sicurezza e collaboratore di Cybersecurity360.
Come è potuto accadere
Aziende come Lusha e ZoomInfo, che offrono questi dati, sono comunemente utilizzate da venditori e recruiter per ottenere informazioni di contatto professionali.
Quelle aziende usano al solito tecniche di web scraping.
Questa metodologia prevede l’uso di software per estrarre automaticamente dati da siti web, consentendo la raccolta di grandi quantità di informazioni in breve tempo. Le piattaforme di lead generation possono inoltre sfruttare fonti esterne come social media, elenchi online, eventi e fiere, nonché database pubblici, per ottenere informazioni pertinenti e di qualità. Combinando questi dati con quelli interni, le aziende possono ottenere una comprensione più completa del proprio pubblico di riferimento.
Ce lo conferma l’esperto cyber Dario Fadda: “La tecnica maggiormente utilizzata da questa tipologia di azienda è il Webscraping. Il funzionamento tecnico è identico a quello su cui è basato il nostro Ransomfeed (che è fatto per catturare informazioni sui criminali)”. “Si crea una cernita di siti Web pubblicamente accessibili, li si interroga automaticamente ad intervalli regolari di tempo per scaricare l’HTML che compone le pagine”.
“A questo punto – aggiunge Fadda – un secondo script (parser) legge tale HTML e cerca informazioni di interesse per archiviarle in maniera distribuibile (CSV o database). Un esempio concreto può essere prendere in rassegna le pagine risultato di ricerca di qualcosa come “pagine bianche” e recuperare nomi, cognomi e numeri di telefono. Risultato dopo risultato nel tempo la propria collezione potrà crescere rapidamente”.
Per altro non c’è nemmeno la certezza che i numeri venduti come di Mattarella o altri personaggi siano davvero validi, siano i loro attuali o se non siano quelli di portavoce.
Intervento del Garante per la Protezione dei Dati Personali
Tutto regolare, quindi? Un momento.
Il Garante per la Protezione dei Dati Personali ha avviato un’istruttoria nei confronti di Lusha per verificare la conformità delle sue attività alla normativa sulla privacy.
Ha chiesto chiarimenti ufficiali alla società su come avesse raccolto quei dati.
L’Autorità ha inoltre pubblicato indicazioni per difendere i dati personali dal web scraping, sottolineando l’importanza di proteggere le informazioni personali online. Come dice Agostino Ghiglia del Garante Privacy, a Cybersecurity360: “a noi non interessa che siano rubati o meno. A noi interessa come sono stati raccolti, se ci sono le basi e le finalità per poterli trattare”.
Un aspetto che viene sottolineato anche da Anna Cataleta, Senior Partner P4I – Partners4Innovation, secondo la quale “il caso dei numeri di personaggi pubblici in vendita online solleva questioni legali riguardanti la protezione dei dati personali in relazione alle attività di web scraping e al successivo utilizzo dei dati raccolti. Infatti, la mera circostanza che un dato sia presente sul web non consente a chiunque di trattarlo poiché, affinché il trattamento sia lecito, è necessario che sia presente una base giuridica adeguata”.
Secondo la Cataleta, “non stupisce, pertanto, che il Garante, attento a questi temi, abbia avviato un’attività istruttoria nei confronti della statunitense Lusha rispetto al trattamento di dati personali di persone che vivono in Italia, chiedendo di specificare: le fonti di acquisizione; se viene acquisito il consenso per l’invio di comunicazioni commerciali o pubblicitarie o il compimento di ricerche di mercato; le finalità per le quali tali dati vengono comunicati agli utenti e la relativa richiesta di consenso”.
“Il tema del webscraping”, aggiunge ancora l’esperta, “è oggi più che mai rilevante in ottica di trattamento dei dati personali, considerato anche che le soluzioni di intelligenza artificiale consentono una raccolta di dati dal web sempre più efficace”.
La pista dello scraping è confermata, da un punto di vista tecnico, anche dall’esperto Emanuele De Lucia. “Non è sempre facile limitare l’esposizione dei nostri dati nei confronti di tali servizi”, aggiunge al nostro giornale. “Molte tecnologie (sia web che mobile) implementano soluzioni di tracciamento delle attività a fini commerciali ed è necessario avere ottima consapevolezza delle nostre attività online”. “La vera forza dei servizi di lead generation è la loro capacità di correlare dati apparentemente non afferenti fra loro provenienti da moltissime sorgenti diverse”, dice De Lucia.
Sbagliato gridare subito al lupo dell’attacco informatico. Ma, come indicano le parole del Garante e di De Lucia, è bene che si parli (correttamente) di questo caso.
Il web scraping non è pericoloso come un furto dati (che nel caso di quelli pubblici sarebbe catastrofico per la sicurezza nazionale), ma ciò non lo rende pratica legale o innocua, senza impatti sui nostri diritti.
Come dice Pennasilico: “sì, è stato scraping, non un furto. Ed è dubbia anche la validità di quei dati: non è detto che sia davvero il numero di Mattarella, ad esempio”.
“Ma ciò non significa che vada tutto bene: è qualcosa che va indagato. Non rassegniamoci alla presenza di database costituiti in questo modo da società americane, con dati italiani”, aggiunge Pennasilico.