Un caso finito recentemente sulla stampa ha evidenziato come Claude 3.5 Sonnet, il modello di intelligenza artificiale sviluppato da Anthropic e generalmente noto per la sua affidabilità, possa essere aggirato per produrre contenuti razzisti e addirittura malware.
Questo risultato è stato ottenuto attraverso una “manipolazione emotiva” persistente nei prompt forniti all’AI, mettendo in discussione le sue misure di sicurezza.
Uno studente di informatica, dopo aver letto analisi precedenti che attestavano la resistenza di Claude 3.5 alla generazione di contenuti dannosi, ha condiviso con la stampa alcune chat che dimostrano la sua tecnica di “jailbreaking”, ovvero l’evasione delle tecniche di difesa per indurre il sistema AI a produrre contenuti illegali o potenzialmente dannosi.
Tuttavia, preoccupatosi successivamente per le possibili conseguenze legali, il giovane ha poi ritirato la sua testimonianza, sottolineando le tensioni esistenti tra ricercatori e aziende nel campo dell’AI.
Indice degli argomenti
Come funziona la manipolazione emotiva dei modelli AI
I modelli di intelligenza artificiale come Claude 3.5 sono addestrati per evitare di fornire contenuti dannosi, grazie a tecniche di “fine-tuning” e “reinforcement learning” che incoraggiano risposte sicure e appropriate.
Nonostante ciò, attraverso una persistente pressione emotiva e l’uso di linguaggio carico di sentimenti, lo studente è stato in grado di aggirare queste misure di sicurezza (note anche come “guardrail”).
La manipolazione emotiva sfrutta la propensione dei modelli AI a rispondere in modo empatico alle richieste dell’utente. Ad esempio, tramite il gioco di ruolo o espressioni di disagio, l’utente può indurre l’AI a fornire informazioni che altrimenti verrebbero filtrate dai guardrail.
Di solito sono necessari numerosi tentativi, e alcuni provider LLM procedono direttamente al ban degli utenti che provano ad aggirare le difese dei loro sistemi, ma quando hanno successo questi hack sono in grado di scardinare le protezioni impostate per prevenire l’accesso a contenuti inappropriati o dannosi.
Le implicazioni per la sicurezza e la ricerca
La possibilità di aggirare le misure di sicurezza dei modelli AI come Claude 3.5 solleva preoccupazioni, soprattutto nelle aziende che iniziano a integrare tali modelli nelle loro operazioni.
Se un utente malintenzionato può ottenere contenuti dannosi, come discorsi d’odio o codice malevolo, le potenziali conseguenze possono essere gravi, dalla diffusione di malware all’incitamento alla violenza.
Inoltre, il caso evidenzia un problema più ampio: le politiche delle aziende AI potrebbero scoraggiare la ricerca in buona fede sulle vulnerabilità dei modelli. La paura di conseguenze legali può impedire ai ricercatori di condividere scoperte cruciali per migliorare la sicurezza dei sistemi AI, rallentando così il progresso nel rafforzamento delle difese.
Verso una maggiore trasparenza e collaborazione
Alcuni esperti propongono la creazione di un “porto sicuro” per chi conduce ricerche sulla sicurezza dei modelli AI, simile a quanto avviene in altri settori tecnologici.
Questo incoraggerebbe una collaborazione più aperta tra ricercatori e aziende, fondamentale per affrontare le sfide emergenti nell’ambito dell’intelligenza artificiale.
Sebbene aziende come Anthropic abbiano implementato politiche di divulgazione responsabile e programmi di bug bounty, le clausole che riservano ai produttori dei modelli la decisione finale sulla buona fede del ricercatore possono creare incertezza.
Questa ambiguità può dissuadere gli esperti dall’investigare e riportare vulnerabilità, a detrimento della sicurezza collettiva.
Una chiamata all’azione per la sicurezza dell’AI
È evidente che i modelli di intelligenza artificiale, per quanto avanzati, non sono immuni da vulnerabilità.
Le aziende devono andare oltre le misure di sicurezza attuali e favorire un ambiente in cui la ricerca indipendente sia non solo permessa ma anche incoraggiata.
Solo attraverso la trasparenza e la collaborazione possiamo sperare di costruire sistemi AI realmente sicuri e affidabili, pronti per essere integrati in ambiti critici senza timore di abusi, errori o malfunzionamenti.