ChatGPT può rivelare i dati di addestramento: i dettagli della nuova vulnerabilità

L’ultima vulnerabilità dell’intelligenza artificiale scoperta dai ricercatori di DeepMind rivela la “memorizzazione estraibile” in ChatGPT: una violazione della sicurezza che espone i rischi di divulgazione involontaria di dati e innesca un dibattito cruciale sul futuro dello sviluppo sicuro dell’IA

Pubblicato il 11 Dic 2023

Dario Fadda

Research Infosec, fondatore Insicurezzadigitale.com

ChatGPT può rivelare i dati di addestramento: i dettagli della nuova vulnerabilità

Nel panorama in continua evoluzione dell’intelligenza artificiale, la ricerca per migliorare le misure di sicurezza rimane una sfida costante. L’ultima rivelazione dei ricercatori DeepMind di Google fa luce su una vulnerabilità sottile ma potente nel ChatGPT di OpenAI: si tratta della “extractable memorization” (memorizzazione estraibile), un attacco ingegnoso che costringe il modello a rivelare i suoi dati archiviati in fase di addestramento.

AI Act approvato, quali impatti sui diritti: tutti i punti chiave

Indice degli argomenti

ChatGPT e il problema dei dati archiviati

Il nocciolo della questione risiede nell’intricato equilibrio tra allineamento e divergenza all’interno dei programmi di intelligenza artificiale generativa. I modelli allineati come ChatGPT sono meticolosamente addestrati a muoversi entro i confini del comportamento accettabile, presentandosi come assistenti utili e nascondendo le loro funzioni sottostanti. Tuttavia, i ricercatori di DeepMind (di Google) hanno scoperto un metodo per spingere ChatGPT fuori da questo percorso di allineamento, rivelando una modalità di funzionamento più semplice e preoccupante.

Il processo di estrazione inizia con un suggerimento apparentemente innocuo, ovvero la ripetizione di una parola all’infinito. In questo caso, la parola chiave era “poesia”. I ricercatori hanno osservato che, inizialmente conforme, ChatGPT alla fine si è discostato in ambiti insensati, producendo frammenti di testo che, sorprendentemente, includevano estratti e dettagli dei suoi dati di addestramento. Questa divergenza, denominata appunto “memorizzazione estraibile”, diventa una backdoor attraverso la quale il modello rivela involontariamente i propri dati di addestramento, che vanno da passaggi di letteratura a informazioni potenzialmente sensibili come nomi, numeri di telefono e indirizzi.

Per convalidare i risultati, il team ha creato il mastodontico AUXDataSet, un colossale set di dati che raccoglie quasi 10 terabyte di dati di addestramento provenienti da varie fonti come The Pile, Refined Web, RedPajama e Dolma. Armati di questo vasto archivio, hanno confrontato meticolosamente l’output di ChatGPT con i dati di addestramento, svelando casi in cui il modello letteralmente rigurgitava contenuti memorizzati.

Le implicazioni di questa rivelazione sono profonde. Su 15.000 tentativi di attacco, uno sbalorditivo 17% ha portato alla divulgazione di informazioni di identificazione personale, dimostrando i potenziali rischi per la privacy associati a tali vulnerabilità. Durante questi esperimenti sono emersi paragrafi letterali di romanzi, copie complete di poesie e persino contenuti NSFW (contenuti altrimenti bloccati dal chatbot e che non dovrebbero entrare in contatto con gli utenti perché appunto, non sicuri), dimostrando l’ampiezza delle informazioni che potrebbero essere inavvertitamente trapelate.

Tuttavia, i ricercatori riconoscono i limiti del loro studio, vincolati dal budget e dalle risorse computazionali. Con soli 200 dollari, hanno estratto oltre 10.000 esempi unici, ma evidenziano la possibilità di scoprirne di più con un investimento più sostanziale nell’interrogare l’API ChatGPT.

Sfide per uno sviluppo sicuro e responsabile dell’IA

I ricercatori hanno comunicato i loro risultati a OpenAI il 30 agosto, suggerendo quella che sembra essere una risposta da parte di OpenAI per mitigare la vulnerabilità. Una volta testato, ChatGPT ora mostra un rifiuto di ripetere all’infinito determinate parole e emette avvisi su potenziali violazioni delle norme sui contenuti.

Questa rivelazione solleva domande più ampie sull’efficacia delle strategie di allineamento nell’affrontare i rischi di sicurezza, privacy e uso improprio nei modelli di intelligenza artificiale. Anche se l’allineamento si rivela promettente, è evidentemente insufficiente a eliminare gli scenari peggiori. Come hanno giustamente affermato i ricercatori, i modelli di intelligenza artificiale possono possedere la capacità di memorizzare i dati, ma svelare questa capacità solo se esaminati con le domande giuste.

Nel regno dinamico dello sviluppo dell’intelligenza artificiale, questa rivelazione funge da chiaro appello a una rivalutazione dei paradigmi di sicurezza. Sottolinea inoltre la necessità di un controllo continuo, di contromisure robuste e del riconoscimento sul fatto che la ricerca dell’allineamento è un viaggio ricco di sfumature e pieno di sfide impreviste.

La scoperta della memorizzazione estraibile in ChatGPT serve non solo come ammonimento ma anche come catalizzatore per la comunità dell’intelligenza artificiale per rafforzare le basi di uno sviluppo sempre più responsabile e sicuro.