Un caso finito recentemente sulla stampa ha evidenziato come Claude 3.5 Sonnet, il modello di intelligenza artificiale sviluppato da Anthropic e generalmente noto per la sua affidabilità, possa essere aggirato per produrre contenuti razzisti e addirittura malware.
nuove minacce
Manipolazione emotiva: la tecnica che mette a nudo le vulnerabilità dei LLM
Nonostante la reputazione di modello AI sicuro, uno studente afferma che Claude 3.5 Sonnet può essere indotto a generare discorsi d’odio e malware attraverso tecniche di manipolazione emotiva. Ecco come funziona questa tecnica di “jailbreaking” e perché serve una chiamata all’azione per la sicurezza dell’AI
Esperto di AI Security, Consulente dell'Unione Europea

Continua a leggere questo articolo
Who's Who
Argomenti
Canali
Speciale PNRR