L’Adversarial Machine Learning (AML) rappresenta un campo di studio emergente che si occupa degli attacchi ai sistemi basati su machine learning (ML) e intelligenza artificiale (AI), compresi il raggiro e l’elusione dei rilevatori di AI.
È vero, infatti, che il machine learning e l’intelligenza artificiale sono componenti essenziali di soluzioni di cyber security moderne ed efficaci. Tuttavia, poiché l’uso di ML e AI nella cyber security è sempre più comune e il settore fa sempre più affidamento su queste tecnologie per arginare il volume crescente di minacce sui dati, è importante ricordare che l’AI non è un rimedio universale, al contrario essa porta con sé una propria – e nuova – superficie di attacco.
I decision-makers che stanno valutando la loro sicurezza informatica devono dunque essere consapevoli di questi rischi e dei limiti intrinseci dell’AI, in modo da poter verificare che le loro difese siano solide e resistenti alle nuove minacce come, appunto, l’Adversarial Machine Learning.
In particolare, è fondamentale che gli esperti di sicurezza informatica siano consapevoli di questi nuovi attacchi e siano in grado di riconoscerli.
L’evoluzione della minaccia informatica ci insegna come combatterla
Indice degli argomenti
Le caratteristiche degli attacchi ai modelli ML
Le soluzioni di machine learning utilizzano una serie di algoritmi e metodi statistici per analizzare i set di dati e identificare i modelli. Le basi di questi metodi consentono intrinsecamente nuovi tipi di attacchi ai sistemi che utilizzano AI e ML. Il framework MITRE ATLAS enumera e classifica le tecniche di attacco ai sistemi ML.
Adversarial Machine Learning: tecnica del data poisoning
Una di queste tecniche è il data poisoning, che mira a manipolare i dati utilizzati per “addestrare” i modelli di AI. I modelli di AI imparano a reagire a input provenienti da grandi insiemi di dati definiti “ground truth” (o baseline di riferimento).
La baseline di riferimento definisce come dovrebbe essere l’output appropriato del modello, ovvero ciò a cui tale modello si rifà.
Gli attacchi possono tentare di aggiungere informazioni errate alla baseline di riferimento, che viene poi incorporata nel processo di addestramento. Modificando il processo di addestramento in questo modo, il modello reagisce in modo errato ad alcuni input di dati. Ad esempio, gli aggressori possono ingannare il modello e fargli classificare un file malware come un’applicazione legittima.
Gli attacchi di data poisoning possono essere eseguiti in vari modi, tra cui l’accesso a set di dati della baseline di riferimento come parte di una tradizionale violazione della sicurezza.
Tuttavia, la manipolazione di set di dati pubblici utilizzati per addestrare algoritmi ad uso AI è una tecnica più comune e d’impatto.
Nei casi in cui l’intelligenza artificiale apprende direttamente dall’input dell’utente, gli avversari possono sfruttare questo accesso per corrompere il sistema di AI. Questo è accaduto con il bot Tay di Twitter, la cui intelligenza artificiale avrebbe dovuto imparare dalle conversazioni con gli altri utenti di Twitter. Gli utenti hanno deliberatamente manipolato il bot, facendogli pubblicare discorsi di incitamento all’odio sulla piattaforma di social media in meno di un giorno.
Adversarial Machine Learning: tecniche di evasione
I sistemi di machine learning sono anche soggetti ad attacchi basati su tecniche di evasione in cui gli aggressori cercano di ingannare il sistema previsionale del modello.
Gli aggressori possono utilizzare i cosiddetti “adversarial examples”, input di dati con piccole anomalie volte a confondere il sistema di ML per ottenere una classificazione errata.
Un esempio di questo tipo di attacco è la modifica di alcuni pixel di un’immagine prima di caricarla, in modo che il sistema di riconoscimento delle immagini non la classifichi o la classifichi in maniera diversa.
Le piccole alterazioni dei pixel spesso non sono visibili all’occhio umano o non sono direttamente riconoscibili come attacco, ma tuttavia si traducono in risultati del modello radicalmente differenti.
In un caso specifico di attacco basato su tecniche di evasione alla sicurezza informatica, i ricercatori di sicurezza hanno modificato manualmente un file dannoso affinché il rilevamento basato su AI di un fornitore di antivirus lo considerasse legittimo. I ricercatori hanno fatto questo estraendo stringhe da software legittimi e aggiungendole al malware. Il modello di AI del fornitore ha cosi dato più peso a queste stringhe legittime che alle routine dannose del file e ha quindi classificato il file come benigno in modo errato.
Attacchi white box e black box
Anche la conoscenza preventiva del sistema target di ML influisce sulle possibilità di successo di un attacco: più gli avversari conoscono il sistema di intelligenza artificiale e la sua architettura, più è facile per loro sferrare un attacco e selezionare il metodo di attacco appropriato.
Nel caso del già citato attacco di elusione al fornitore di antivirus, gli aggressori avevano accesso al modello e al software. Questo è chiamato attacco white box. Gli avversari sono riusciti ad analizzare gli algoritmi e a trovare le stringhe giuste per ingannare il sistema.
All’altra estremità dello spettro ci sono gli attacchi “black box”, in cui gli autori degli attacchi hanno una conoscenza minima o nulla del modello AI. Se il modello fornisce una certezza statistica con la classificazione e, ad esempio, la probabilità che un file sia un malware, gli aggressori possono utilizzare metodi basati sul gradiente.
Possono modificare iterativamente un file malware, controllare la probabilità di malware calcolata dal modello e regolare la successiva serie di modifiche in base alla probabilità di aumento o diminuzione. In questo modo raggiungono il loro obiettivo passo dopo passo, procedendo per tentativi finché il file non riceve una probabilità molto bassa di essere un malware.
Adversarial Machine Learning: come proteggersi
Per proteggere i sistemi di ML, i difensori possono utilizzare metodi in grado di prevenire, rendere più complessi o rilevare gli attacchi. Ad esempio, quando si aggiungono stringhe benigne a un file malware, un modello di classificazione monotonico continuerà a rilevare correttamente il file: per il modello non è importante quanti tratti benigni abbia un file se sono presenti anche tratti malware.
Gli attacchi basati sul gradiente possono essere complicati da modelli che producono solo le cosiddette “hard label”, ovvero nessuna probabilità e solo categorie (ad esempio, “malware” o “applicazione benigna”) come risultato finale.
Tuttavia, un aggressore potrebbe addestrare un modello proxy basandosi sull’output hard label del modello vittima come baseline di riferimento, supponendo che l’aggressore sia in grado di raccogliere una quantità sufficiente di record di output.
Questo modello proxy può quindi essere utilizzato per approssimare il gradiente del modello vittima. Pertanto, l’obiettivo dei difensori non è quello di sventare la totalità dei possibili attacchi, ma di aumentare il costo che l’avversario deve sostenere per trovare vie percorribili per attaccare i sistemi di ML e di garantire la possibilità di rilevare quando i propri sistemi di ML sono sotto attacco.
I difensori possono accedere a una gamma più ampia di fonti di dati, ad esempio utilizzando l’Extended Detection and Response (XDR) per proteggersi dagli attacchi di Adversarial Machine Learning.
Tuttavia, è importante che gli esperti in sicurezza informatica non si affidino esclusivamente all’AI e non si fidino completamente dei suoi risultati. Considerando che l’AI porta con sé una propria superficie di attacco, gli esperti devono evitare le monoculture di AI e incorporare altri approcci potenti, come gli indicatori di attacco.
In ultima analisi, i fornitori di sicurezza hanno bisogno soprattutto di una cosa: le competenze umane.
Dopo tutto, la capacità di riconoscere gli attacchi ML avversari e di adattare di conseguenza i propri modelli di AI è fondamentale quando si tratta di costruire una strategia di difesa efficace.