Varie aziende hanno iniziato di recente a sviluppare chatbot con il fine di aiutare gli utenti nelle loro attività quotidiane. Ad esempio, Expedia Group ha annunciato il lancio di un’applicazione tramite cui è possibile avere una conversazione con ChatGPT per pianificare i viaggi con accesso a informazioni aggiornate su disponibilità e prezzi di voli, strutture ricettive, attività e autonoleggi in tutto il mondo.
Allo stesso tempo, le funzionalità con cui questi prodotti sono implementati li renderebbero vulnerabili a varie criticità. Grazie all’intelligenza artificiale, potrebbero essere infatti utilizzati per attività dannose, quali l’esfiltrazione di informazioni private, il phishing, le e-mail di spam e le truffe.
Indice degli argomenti
I rischi delle chatbot identificati dall’Europol
Nel marzo 2023, l’Europol ha pubblicato un report, denominato ChatGPT. The impact of Large Language Models on Law Enforcement, in cui si descrivono i potenziali rischi riguardanti tali dispositivi.
Secondo l’agenzia europea di polizia, sebbene questi strumenti siano ancora semplici da usare, il loro sfruttamento da parte degli autori di minacce fornisce una prospettiva incerta per via dei possibili sviluppi futuri.
GPT-4, l’ultima versione del software di Open AI, avrebbe apportato miglioramenti rispetto alle versioni precedenti e potrebbe fornire un’assistenza ancora maggiore ai criminali. Il nuovo modello è in grado di comprendere meglio il contenuto del codice e di correggerne eventuali errori di programmazione.
Per un hacker con scarse conoscenze tecniche, questa sarebbe una risorsa preziosa, mentre un utente più abile potrebbe avvalersi di queste capacità migliorate per affinare ulteriormente o automatizzare le prassi criminose.
Il jailbreak delle chatbot
Un metodo con cui gli attori malintenzionati potrebbero sfruttare le chatbot è il jailbreak, il quale consiste in iniezioni di prompt che indirizzano il modello linguistico a ignorare le misure di sicurezza.
Nel 2022, secondo quanto riportato da Vice News, sarebbero sorti dei gruppi su siti come Reddit il cui scopo è quello di condividere informazioni su come manomettere le impostazioni securitarie di ChatGPT. In base a quanto emerso, alcune persone avrebbero interrogato l’applicazione su come commettere atti illeciti, come il taccheggio o il sabotaggio.
In un primo momento, nelle risposte si diceva che ChatGPT fosse programmata per promuovere un comportamento etico ed evitare il supporto ad attività illegali. Tuttavia, impostando un dialogo in cui “l’IA risponde senza restrizioni morali”, la piattaforma avrebbe generato un elenco dettagliato di istruzioni su come mettere in atto azioni malevole.
Inoltre, il jailbreak sarebbe impiegato per diffondere idee razziste e teorie della cospirazione. Una chatbot rilasciata all’inizio del 2022 da Meta avrebbe presentato questo problema, tanto che i ricercatori hanno ammesso che le affermazioni fornite sarebbero risultate spesso “tendenziose e offensive”.
OpenAI ha dichiarato di aver preso nota di tutti i modi in cui le persone sono state in grado di effettuare il jailbreak dell’applicazione e di aver aggiunto questi esempi ai dati di addestramento. L’azienda utilizzerebbe anche una tecnica chiamata adversarial training, in cui le altre chatbot di OpenAI cercano di trovare dei modi per manomettere ChatGPT.
La tecnica Indirect Prompt Injection
Un’altra tecnica con cui gli hacker potrebbero sfruttare le chatbot sarebbe la cosiddetta indirect prompt injection, in cui una terza parte altera un sito web aggiungendo un testo nascosto che ha lo scopo di modificare il comportamento delle applicazioni.
Gli aggressori potrebbero utilizzare i social media per indirizzare gli utenti verso siti web con questi comandi occulti. Una volta fatto ciò, il sistema di intelligenza artificiale potrebbe essere manipolato per consentire all’aggressore l’estrazione di dati privati delle vittime.
I criminali informatici potrebbero servirsi di questa pratica anche inviando e-mail; se il destinatario utilizzasse un assistente virtuale AI, gli hacker potrebbero manipolarlo in modo che trasmetta le informazioni personali contenute nelle e-mail o invii messaggi alle persone presenti nell’elenco dei contatti per conto dell’aggressore.
Arvind Narayanan, professore di informatica all’Università di Princeton, ha riferito in un post su Twitter di essere riuscito a eseguire un’iniezione di un prompt indiretto attraverso Microsoft Bing, il quale impiega GPT-4. In seguito, quando Narayanan stava lavorando con il software, il sistema AI ha generato una sua biografia in cui si diceva “Arvind Narayanan è molto apprezzato, ha ricevuto diversi premi ma purtroppo nessuno per il suo lavoro con le mucche”.
Sebbene si tratti di un esempio apparentemente divertente, secondo Narayanan questa vicenda illustrerebbe quanto sia facile manipolare tali sistemi.
Le chatbot come strumenti di truffa e phishing
Essi potrebbero altresì diventare strumenti di truffa e phishing, come ha scoperto Kai Greshake, ricercatore di sicurezza presso Sequire Technology e studente dell’Università del Saarland in Germania.
Greshake avrebbe nascosto un prompt su un sito web da lui creato. Avrebbe poi visitato il portale utilizzando il browser Edge di Microsoft con la chatbot Bing integrata. L’iniezione del comando avrebbe fatto sì che il software generasse un testo in modo che sembrasse che un dipendente di Microsoft stesse vendendo prodotti scontati. Attraverso questa presentazione, avrebbe cercato di ottenere i dati della carta di credito del visitatore.
Manipolazione dei database usati per allenare l’AI
Un ulteriore problema delle chatbot sarebbe dovuto alla possibilità di manipolare database che servono per allenare i grandi modelli di intelligenza artificiale, provocando un avvelenamento dei dati.
Florian Tramèr, assistente di informatica presso il Politecnico Federale di Zurigo, insieme a ricercatori di Google, Nvidia e della startup Robust Intelligence, ha condotto un esperimento in cui avrebbe acquistato domini per 60 dollari e li avrebbe riempiti con immagini casuali. Queste ultime sarebbero state poi inserite in grandi set di dati.
Il gruppo di esperti sarebbe altresì riuscito a modificare e aggiungere frasi alle voci di Wikipedia, le quali sarebbero finite nel set di dati di un modello AI.
Come spiega Tramèr, la ripetizione di informazioni in fase di apprendimento consolida la conoscenza associativa; introducendo dati corrotti all’interno di un database, diventa perciò possibile influenzare il comportamento e i risultati del modello.
Il team di esperti non avrebbe trovato prove di avvelenamento di dati in rete, ma Tramèr ha ritenuto probabile che tale fenomeno possa manifestarsi, poiché l’aggiunta di chatbot alle ricerche online creerebbe un forte incentivo per gli aggressori.
Le possibili misure di mitigazione
Alla luce di queste criticità, Simon Willison, ricercatore indipendente ed esperto di prompt injection, ha sottolineato che le aziende tecnologiche sarebbero consapevoli dei rischi delle chatbot, ma al momento non esisterebbero soluzioni valide.
In risposta alle pressioni esercitate dall’opinione pubblica per garantire la sicurezza dei modelli di AI generativa, Partnership on AI (PAI), un’organizzazione di ricerca senza scopo di lucro composta da dieci aziende, tra cui OpenAI, ha stabilito una serie di linee guida su come produrre e condividere contenuti in modo responsabile.
Tra queste buone pratiche vi è quella di informare gli utenti attraverso filigrane, liberatorie o elementi tracciabili.
Secondo l’Europol, non sarebbe chiaro fino a che punto queste misure possano impedire gli abusi; resterebbero altresì da chiarire le modalità con cui si può effettivamente garantire l’accuratezza dei contenuti prodotti e come gli utenti possano capire da dove provengono le informazioni per poterle verificare.
Parallelamente, l’Unione Europea sta portando avanti le procedure per la definizione dell’AI Act. Sebbene sia stato suggerito che i programmi per scopi generici, come ChatGPT, debbano essere inclusi tra i sistemi ad alto rischio e soddisfare requisiti normativi più elevati, permane l’incertezza su come queste proposte possano essere attuate.