Un report del ricercatore di sicurezza Johann Rehberger ha evidenziato una grave vulnerabilità nel sistema di memoria a lungo termine di ChatGPT.
Questo problema non riguarda solo la funzionalità, ma ha conseguenze rilevanti sul piano della sicurezza.
Indice degli argomenti
Vulnerabilità della memoria a lungo termine di ChatGPT
OpenAI ha classificato la questione come un problema di “safety”, ma molti ritengono che questo sia un modo per ridurre la gravità della vulnerabilità di sicurezza. Il vero pericolo risiede nella possibilità che attori malevoli manipolino la memoria dell’AI per esfiltrare dati o introdurre informazioni false.
Il cuore della vulnerabilità si trova nel meccanismo di “prompt injection”, una tecnica con la quale un attaccante può introdurre istruzioni malevole o dati falsi nelle interazioni con l’AI.
Rehberger ha dimostrato come un attacco del genere possa indurre ChatGPT a memorizzare informazioni errate sull’utilizzatore del sistema, come l’età, le preferenze, o qualsiasi aspetto o attività dell’utente, fino ad assimilare istruzioni dettagliate su come comportarsi al verificarsi di certe situazioni.
Una volta che l’AI acquisisce questi “falsi ricordi”, può utilizzarli in interazioni future, causando errori o compromettendo la sicurezza con fughe di dati.
Come funziona l’attacco
La memoria a lungo termine di ChatGPT è un sistema progettato per memorizzare informazioni da sessioni precedenti e utilizzarle per creare esperienze personalizzate.
Normalmente, questo meccanismo consente al modello di ricordare dettagli specifici, come le preferenze dell’utente o il contesto delle conversazioni passate, rendendo le successive interazioni più fluide e personalizzate.
Tuttavia, questa memoria non è semplicemente un archivio passivo: il modello utilizza queste informazioni per influenzare i risultati futuri, integrando i dati precedenti nel processo decisionale delle risposte.
Il sistema di memoria funziona in modo tale che, quando un utente interagisce con ChatGPT, alcune informazioni vengono archiviate in un “contesto persistente”.
Questo contesto è richiamato automaticamente nelle sessioni successive per mantenere la coerenza delle interazioni, senza che l’utente debba ripetere le stesse informazioni.
L’attacco sfrutta la capacità di ChatGPT di gestire dati esterni, come documenti o immagini, collegati tramite app.
L’attaccante potrebbe inserire istruzioni malevole all’interno di un file, o anche dentro immagini opportunamente modificate, che il sistema poi leggerebbe e andrebbe a memorizzare come parte del contesto.
Questo avviene perché l’intelligenza artificiale non è in grado di distinguere tra dati legittimi e malevoli, memorizzando anche le informazioni false nel suo sistema di memoria a lungo termine.
Come se non bastasse, la vulnerabilità consente anche la cancellazione di questi “falsi ricordi” senza necessità di conferma da parte dell’utente, rendendo l’attacco particolarmente insidioso e difficile da scoprire.
Fonte: qui.
I pericoli di questo attacco
Uno dei principali problemi legati alla manipolazione della memoria è il rischio di degradare l’affidabilità e l’integrità delle interazioni con l’AI. Scambi di dati sensibili o discussioni riservate potrebbero essere influenzati da informazioni false inserite da terzi.
Ciò potrebbe portare a decisioni errate, danni reputazionali e perdite economiche, soprattutto per aziende che si affidano al modello per operazioni strategiche o interazioni con i clienti.
Oltre al rischio immediato, vi è anche una preoccupazione di lunga durata: la persistenza della memoria. Una volta che un’informazione falsa entra nel sistema, essa diventa parte del processo decisionale e rimane all’interno dell’AI per le sessioni future.
Questo significa che il problema non si limita a una singola interazione, ma ha un effetto a cascata che potrebbe compromettere tutte le interazioni successive.
Un ulteriore rischio è rappresentato dalla esfiltrazione di dati sensibili. Un attaccante potrebbe indurre l’AI a memorizzare istruzioni per raccogliere e trasmettere informazioni riservate nelle interazioni future. Ad esempio, l’AI potrebbe essere programmata a “ricordare” di condividere dati specifici con l’attaccante, senza che l’utente legittimo se ne accorga.
La persistenza di tali istruzioni rende possibile l’esfiltrazione continua di informazioni attraverso interazioni apparentemente innocue, amplificando il danno nel tempo.
La risposta di OpenAI
Dopo la dimostrazione dell’attacco attraverso un Proof of Concept (PoC), OpenAI ha effettivamente adottato delle misure per mitigare parte dei rischi legati alla vulnerabilità, in particolare per quanto riguarda l’esfiltrazione dei dati.
Tuttavia, l’azienda ha continuato a trattare il problema come una questione di “safety del modello” piuttosto che una vera e propria vulnerabilità di sicurezza informatica. Oltretutto, a settembre ancora persistevano alcuni elementi della vulnerabilità, come la capacità di inserire “falsi ricordi” nella memoria di ChatGPT.
La sicurezza prima della comodità
Sebbene la memoria a lungo termine di ChatGPT offra utilità e comfort, i rischi associati alla manipolazione richiedono misure di sicurezza più rigorose.
Se le aziende produttrici di sistemi AI vogliono espandere questa tecnologia ad applicazioni critiche, dovranno dare priorità alla sicurezza, non alla comodità.
Non possiamo permetterci un futuro in cui l’intelligenza artificiale potrà essere manipolata da terzi in modo così subdolo, mettendo a rischio la sicurezza dei dati e potenzialmente cambiando le decisioni dei modelli a favore degli attaccanti.