Uno dei metodi più utilizzati da sistemi e tool d’intelligence dei contenuti web è il mining dei dati. Si tratta, in buona sostanza, di estrarre grandi quantità di dati da molteplici fonti, avendo poi cura di filtrarli fino a ottenere quelli correlati al tipo di ricerca che si vuole effettuare. Sul mercato esistono moltissime soluzioni per effettuare questo tipo di analisi sul web in chiaro, senza contare che è disponibile una generosa quantità di librerie pronte all’uso per realizzare propri software, di solito scritti in Python.
Un po’ meno diffusi, ed efficaci, sono gli strumenti dedicati all’estrazione di informazioni dal Dark Web. Vuoi per i diversi protocolli e tecnologie che reggono questa porzione del web, così importante nella Cyber Threat Intelligence, vuoi, soprattutto, per quella serie di espedienti utilizzati proprio per bloccare le attività di intelligence.
Dopotutto, se è vero che il Dark Web è salito agli onori della cronaca proprio per la sua capacità di limitare la visibilità di certi contenuti, o comunque proteggerne la fonte, dall’altra è altrettanto vero che la presenza di informazioni vitali per la lotta al crimine lo ha reso un territorio piuttosto battuto da ricercatori, aziende di sicurezza e organi competenti.
Cyber Threat Intelligence, cos’è e come aiuta la sicurezza aziendale
Indice degli argomenti
Il potere del captcha
Per limitare, quindi, lo “scraping” di informazioni, si utilizzano tecniche vecchie e nuove. Tra queste, quella più utilizzata è il captcha.
Già, proprio quel sistema, spesso foriero di noia mortale, col quale si filtrano i sistemi di navigazione e interazione automatici e si certifica che, lì di fronte, c’è un essere umano. Il captcha, infatti, non è solo un test pronto a valutare la bontà della nostra vista, ma un geniale sistema che accerta che a consultare quel dato servizio web vi sia un essere umano in grado di leggere e interpretare immagini o caratteri, rappresentati in modo non convenzionale, e li sappia riconoscere o riprodurre.
Il captcha, nel Dark Web, non evita certo che un singolo utente umano possa comunque analizzare una certa fonte, ma il suo scopo è quello di evitare che sia fatto in modo massivo da un bot o una tecnologia automatica, come avviene abitualmente nella Cyber Threat Intelligence (CTI). Dunque, in estrema sintesi, per godere di un’intelligence efficace anche nel dark web, occorre trovare il modo di “risolvere” i captcha in modo automatico.
Risolvere i captcha: che sfida
Si sono spesi molti studi e ricerche in questo ambito, poiché i captcha riescono, nella loro semplicità, a mettere in scacco matto strumenti di CTI anche molto complessi e costosi. Le tecnologie per la risoluzione automatica dei captcha, grazie a tutta questa ricerca, non mancano, ma mostrano il fianco a una certa imprecisione: la percentuale di efficacia è in effetti ancora bassa e molte tecnologie captcha e dopo un certo numero di tentativi, o addirittura dopo ciascuno, allungano il tempo di generazione di nuove stringhe, mettendo in crisi i software di mining.
Si è quindi accolta con entusiasmo la notizia di un nuovo studio, condotto da ricercatori di University of Arizona, University of South Florida e University of Georgia, che illustra una tecnica con cui risolvere captcha con un’affidabilità del 94,4%.
La tecnologia, sviluppata da Ning Zhang, Mohammadreza Ebrahimi, Weifeng Li e Hsinchun Chen, parte dal presupposto che a oggi è molto difficile impiegare la tradizionali tecniche di web-crawling, a fronte di una miniera di informazioni legate al cyber-crime e che includono il contenuto di interi data breach, carte di credito e dossier a pagamento e, in genere, informazioni che hanno le loro buone ragioni per popolare il dark web anziché il web in chiaro.
La difficoltà, come anticipato, sta principalmente nell’utilizzo dei captcha. Per comprende dove sita la principale problematica, e dove viene in soccorso questa soluzione, occorre fare però un passetto indietro e analizzare cosa contraddistingue la tecnologia captcha.
Capire le basi del captcha
Il Completely Automated Public Turing Test to tell Computers and Human Apart, questo il significato dell’acronimo captcha, nacque in modo curioso, nel 1997, nei laboratori di AltaVista. Qui, il gruppo di ricerca capitanato da Andrei Broder, si era messo in testa di sviluppare una tecnologia che impedisse ai bot di inserire in modo automatico e truffaldino degli indirizzi URL proprio al motore di ricerca AltaVista. Così, ebbero un’idea geniale: prendere il manuale di uno scanner della Brother e analizzare i consigli che venivano dati per migliorare la tecnologia OCR, cioè quella che consente di riconoscere un testo in un’immagine e trasformarlo da file bitmap in una vera e propria stringa.
L’intento era quello di sfruttare quei consigli al contrario e fare di tutto per non rendere riconoscibile un testo da un software automatizzato, in modo da scremare le interazioni umane vere e proprie e mettere fuori gioco i bot. Caratteri definiti? Alcuni caratteri sarebbero stati sfocati. Linee diritte? Ecco dei caratteri obliqui o storti. Sfondo omogeneo e con colore contrastato per risaltare i testi? Si sarebbero scelti sfondi di colore simile a quello dei caratteri. E via così.
Variazioni in salsa Dark Web
La ricerca di cui vi sto parlando parte dal presupposto che i captcha del Dark Web spingono ancora più su questi aspetti, proprio per contrastare i recenti sistemi di riconoscimento automatico basati su Machine Learning. Tre, in particolare, sono gli aspetti considerati dai captcha “da Dark Web”. Il primo è lavorare sugli sfondi dei caratteri, rendendoli molto frastagliati e capaci di confondere le stringhe. Il secondo è inserire stringhe di lunghezza variabile, visto che i captcha tradizionali tendono a proporre lunghezze predefinite. Il terzo, quasi una conseguenza, è la mancanza sistematica di data-set di captcha del Dark Web con cui allenare i tool di machine learning.
Il sistema messo a punto dal team di Zhang lavora sui primi due aspetti e sotto il titolo di “Generative Adversarial Learning for Proactive Cyber Threat Intelligence” cela la proposta di un framework in grado di riconoscere e risolvere captcha dallo sfondo “difficile” e di lunghezza variabile.
Più tecnologie in una
Un risultato ambizioso, che i ricercatori sono riusciti a raggiungere, con una precisione del 94,4%, lavorando su un Dark Web Adversarial Generative Network, o DW-GAN, che prenda in considerazione varie tecnologie. Tra queste, un filtro per il de-noising dello sfondo, e poi funzioni di segmentazione dei caratteri e, quindi, di loro riconoscimento.
Il processo accetta in ingresso un’immagine captcha, a cui applica il filtro di de-noising per ottenere il massimo contrasto della stringa. A questa, poi, applica un processo di segmentazione, con cui è in grado di separare i caratteri, uno per uno: viene fatto con il rilevamento del contorno dei caratteri e il riconoscimento dello spazio con quelli successivi. I caratteri, infine, sono riconosciuti con un Convolutional Neural Network.
Efficace nel Dark Web
La tecnologia è stata collaudata con tre diversi data-set prelevati dal Dark Web, due provenienti da negozi di carte di credito rubate, uno invece da un nuovo shop illegali, tutti suggeriti da esperti di Cyber Threat Intelligence. La tecnologia, installata in uno spider, è stata quindi tarata per la raccolta e il riconoscimento di 500 immagini captcha. A questo test ne ha fatto seguito un altro contro un generatore di captcha di lunghezza variabile tra 4 e 7 caratteri.
I risultati sono stati eccellenti, raggiungendo un grado di precisione, a seconda dei casi, tra il 94,4% e il 95,98%. Notevole, soprattutto se si considera che le migliori tecnologie, al momento, nella medesima situazione, si fermano a percentuali tra 88,12% e 93,72%.
I ricercatori, ora, mirano ad aumentare la precisione della tecnologia e ampliare i casi gestibili. Per esempio, prendendo in considerazione quei sistemi che abbinano ai captcha domande quali “quanto fa 2 +1?”. Il lavoro da fare non manca, ma già a questo punto il lavoro appare molto promettente. E ci fa ragionare sul fatto che le grandi rivoluzioni nella cyber security passano, sempre, da progetti più piccoli e molto meno visibili. Come risolvere dei captcha.