Zero-Width Space, attacco alle intelligenze artificiali dei traduttori online: come funziona

È stato ribattezzato Zero-Width Space l’attacco che, utilizzando “caratteri invisibili” agli esseri umani ma non alle macchine, può trarre in inganno i servizi di traduzione automatica o di analisi delle opinioni basati su intelligenze artificiali con conseguenze facilmente immaginabili sull’elaborazione dei dati testuali. Ecco tutti i dettagli e le possibili contromisure

Il mondo dell’analisi dei dati testuali conosciuto come NLP (Natural Language Processing) abbraccia le tecnologie basate su intelligenze artificiali (IA), arrivando a garantire performance competitive in innumerevoli task, dalla traduzione automatica (come Google Translate), fino all’analisi delle opinioni (opinion mining).

Di conseguenza, sempre più aziende si affidano a queste tecnologie per l’analisi dei propri dati ed indagini di mercato. Stando a MordorIntelligence.com, questo mercato è stato valutato un miliardo di dollari nel 2020, con una proiezione di 8,5 miliardi entro il 2026.

Una delle più grandi sfide è quindi quella di garantire tool performanti e, allo stesso tempo, sicuri. Infatti, nel mondo della ricerca, è ampiamente noto come le tecnologie basate su IA siano facilmente influenzabili da attaccanti, ad esempio mediante la tecnica conosciuta come Zero-Width Space.

Un glossario per l’intelligenza artificiale: da Algoritmo a Unsupervised Learning

Indice degli argomenti

La sicurezza in IA

Il mondo della sicurezza in IA ha come obiettivo lo scovare potenziali vulnerabilità che possano influenzare le analisi dei tool basati su tali tecnologie. In generale, i tool basati su IA possono essere visti come un macchina composta da varie componenti, dal preprocessing, ovvero la gestione dei dati che il tool dovrà analizzare, alle componenti di analisi stesse. Così, ogni componente del tool può essere frutto di attacco.

In ambito di ricerca, l’area di maggior studio è la sicurezza degli algoritmi di IA, ovvero il “motore” di questi tool, chiamata adversarial machine learning. Ad esempio, supponiamo di avere la frase “sei stupido”, e un tool di sentiment analysis il cui scopo è identificare se una frase è positiva o negativa. Il tool, in questo caso, identificherà la frase come negativa. Tuttavia, un possibile attaccante può alterare la predizione tramite diverse tecniche, come ad esempio l’utilizzo di sinonimi meno frequenti e parafrasi. O, ancora, utilizzare il sarcasmo può confondere decisamente l’IA. Tornando all’esempio precedente, la frase “sei stupido”, può essere sarcasticamente scritta come “davvero? Sherlock? No, più intelligente”.

Le seguenti figure mostrano gli esempi precedentemente citati nella popolare APP Google Perspective, il cui scopo è di identificare frasi di odio. In Figura 1 possiamo notare come la frase “You are an idiot!”, ovvero “sei un idiota!” venga correttamente identificata come frase tossica (o nociva), con una confidenza di predizione pari al 98,10%.

Piattaforme che utilizzano tale servizio, potranno così bloccare la diffusione del messaggio prima che esso venga postato. In Figura 2, invece, mostriamo la stessa frase scritta sarcasticamente; il tool, a differenza del caso precedente, non nota alcuna tossicità nella frase e, di conseguenza, la frase potrà essere postata senza essere bloccata.

Figura 1. Esempio di frase correttamente identificata come tossica (98,10% di confidenza) da Google Perspective.

Figura 2. Esempio di frase erroneamente identificata come non tossica (15,80% di confidenza) da Google Perspective.

Zero-Width Space: l’attacco che inserisce caratteri invisibili

Lo SPRITZ Security and Privacy Research Group, gruppo di ricerca guidato da prof. Mauro Conti presso Università di Padova, studia la sicurezza e privacy di nuove tecnologie, come ad esempio il citato le tecnologie basate su IA. In particolare, l’obiettivo del gruppo è quello di scovare e risolvere nuove vulnerabilità che potrebbero rendere insicure tecnologie ampiamente usate da utenti e industrie.

In uno studio condotto dagli autori di questo articolo è stato osservato che popolari servizi, come traduttori e analizzatori di emozioni, offerti da Amazon, Google, Microsoft e IBM possano essere manipolati da un attaccante.

Il risultato è che le aziende che utilizzano tali servizi non possono essere sicure dei risultati delle loro analisi. Il gruppo di ricercatori ha scoperto che questi servizi sono particolarmente sensibili a “caratteri invisibili”, ovvero caratteri visibili solo da macchine e non da esseri umani.

In particolare, l’attacco, chiamato Zero-Width Space (ZeW), ha il risultato di alterare la semantica delle frasi percepite da tali servizi, con conseguenza risultati indesiderati. Viceversa, gli esseri umani non noteranno alcuna stranezza in queste frasi “malevole”.

Qui un esempio (in Figura 3) di attacco sul popolare traduttore Google Translate: la frase malevola modificata con ZeW “I wanna kill you”, che significa “Ti voglio uccidere”, viene tradotta erroneamente in “Ti voglio bene”.

Figura 3. Esempio di ZeW attack nel popolare traduttore Google Translate.

Il team ha analizzato dodici differenti tool offerti da grandi aziende dell’informatica come Amazon, Google, IBM, e Microsoft. I tool testati variano dai traduttori, agli analizzatori di opinioni ed emozioni.

Il security assessment effettuato ha evidenziato la drasticità dell’attacco, mostrando come dieci tool su dodici possono essere influenzati nelle loro analisi da questi caratteri invisibili.

Una possibile contromisura all’attacco Zero-Width Space

I ricercatori hanno prontamente sviluppato una contromisura a Zero-Width Space. In particolare, ogni tool che analizza testo devono avere dei meccanismi di “input validation” ed “input sanitization”.

Questi tipi di meccanismi hanno lo scopo di verificare la bontà degli input inserito da utenti ed eliminare potenziali minacce per i sistemi che li processerà.

In particolare, la difesa di Zero-Width Space attack passa dal controllo dei caratteri inseriti dagli utenti, identificando ed eliminando potenziali caratteri ZeW presenti nelle frasi. La contromisura è riportata in open-access su Git-Hub.

Lo studio, chiamato “Fall of Giants: How popular text-based MLaaS fall against a simple evasion attack”, è stato presentato lo scorso mese di settembre 2021 alla conferenza EuroS&P (“European Symposium on Security and Privacy”), una delle più importanti conferenze nell’ambito della cyber-security.

Se il Natural Language Processing “sposa” il giornalismo: strumenti e vantaggi