I fake sono quei contenuti ingannevoli veicolati su Internet, ma più specificatamente sui social, finalizzati a polarizzare l’opinione pubblica, per motivi in genere ideologici, politici, ma anche per provocare engagement per veicolare contenuti secondari (pubblicità, merchandising) col fine di lucrare su tale inganno.
Oltre ai normali contenuti fake, sempre più spesso si sente parlare di deep fake, ossia di contenuti più difficili da individuare come falsi perché “messi in bocca” (letteralmente) a personaggi noti, come fonte più credibile di un qualunque contenuto diffuso da utenti non noti.
Indice degli argomenti
Cosa significa deep fake
Negli ultimi decenni si sono avvicendate varie mode nel mondo dell’intelligenza artificiale, ossia nell’elaborazione automatica di informazioni per ottenere risultati che sembrerebbero richiedere intelligenza umana.
Grazie alla maggiore digitalizzazione degli ultimi decenni, e alla disponibilità di computer sempre più potenti a costi decrescenti, da più di 10 anni si fa uso di grandi quantità di dati (Big Data) per estrarne informazioni (Insight): quasi 15 anni fa (nel 2008) Google ottenne un notevole successo nel predire la diffusione dell’influenza analizzando statistiche sulle ricerche degli utenti con termini-chiave quali “Influenza”, “medicinali”, “aspirina” eccetera.
Grazie alla disponibilità di computer con potenze crescenti, è stato sempre più alla portata di singoli o piccole società utilizzare algoritmi (sequenze di regole per l’elaborazione di dati da parte dei computer) più specializzati o complessi che fanno uso di teorie analisi numerica con tecniche di statistica avanzata, imparando dalla struttura dei dati in esame, algoritmi detti appunto di Machine Learning.
In tempi ancora più recenti (poco meno di dieci anni) sono stati ripresi studi su algoritmi capaci di simulare reti neurali, ossia modelli di neuroni (le cellule del cervello) collegati fra loro, con neuroni di input, di elaborazione e di output che vengono addestrate con dati di esempio (in cui gli output associati a specifici input siano noti a priori).
Schema di Rete Neurale Semplice (da Wikipedia).
L’idea, in realtà, non è recente e la si fa generalmente risalire al Perceptron ideato alla fine degli Anni 50, ossia un modello semplificato di rete neurale, di cui però fu dimostrata la limitazione nell’elaborazione dati.
Con la suddetta evoluzione dei computer, si è potuto aumentare la complessità della rete, introducendo ulteriori strati di neuroni nascosti (ossia non connessi direttamente ai neuroni di input o output) per aumentare la complessità dell’elaborazione.
Schema di Rete Neurale “profonda” (da IBM, qui).
Tali reti sono appunto dette “profonde” (deep in inglese) in quanto in tali reti aumenta la profondità degli strati intermedi nascosti.
Per estensione, deep fake indica appunto contenuti fake (spesso video, ma non solo) profondi perché spesso prodotti mediante l’uso di deep learning (algoritmi basati su Deep Neural Network) per apprendere le caratteristiche verosimili da simulare e renderne difficili da individuarne la falsità, dunque anche nel significato di “falsi profondi”.
Vale la pena indicare che la parola “deep fake” è stata coniata nel 2017, prendendo spunto da un utente di Reddit (“deepfakes”) che produceva video porno sovrapponendovi in modo realistico facce di celebrità (poi bannato dalla piattaforma per tali produzioni).
Un po’ di storia sui deep fake
La storia della tecnologia è piena di esempi di oggetti o software che tendono ad ingannare la percezione umana.
Ad esempio, già il grammofono appena uscito sul mercato, sembrava realistico a molti ascoltatori dell’epoca, pur se per noi risulta associato ad una bassa fedeltà di riproduzione audio.
Anche il primo filmato proiettato dei Fratelli Lumière (un treno in arrivo in stazione) sembrava per l’epoca così realistico da terrorizzare gli spettatori.
In tempi più recenti (1966), qualche persona fu tratta in inganno anche da “Intelligenze Artificiali” molto primordiali, quali Eliza: un bot (ossia un sistema automatico, abbreviazione di robot) capace di interagire per chat con esseri umani simulando una seduta di psicoterapia effettuando scambi linguistici molto basilari, ma che all’epoca sembrava già padroneggiare strutture linguistiche scritte, ingannando dunque persone che all’epoca non avevano alcuna esperienza di interazioni con sistemi artificiali.
Il termine deep fake è però prevalentemente associato a manipolazioni video che producano immagini in parte o totalmente false: nel primo caso producendo video con personaggi noti a partire da movimenti di attori; nel secondo caso producendo immagini/video di persone con tratti realistici ma completamente generate al computer.
Come accennato nel precedente paragrafo, oggi reti neurali avanzate evolute a partire da quelle utilizzate per il riconoscimento facciale, sono capaci di manipolazione di volti umani per produrre video falsi.
Infatti in ambito di ricerca, già nel 1997 fu prodotta un’applicazione (Video Rewrite) capace di modificare in modo realistico i movimenti della bocca di un volto esistente per sovrapporre un audio mai pronunciato.
Mentre poi le prime applicazioni erano alla portata solo di esperti e/o richiedevano la disponibilità di computer potenti, oggi si sta assistendo ad una “democratizzazione” ti tali applicazioni rendendo alla portata di chiunque produrre un video falso (magari di minor qualità rispetto a quelli prodotti da esperti).
Esempi e diffusione dei deep fake
Gli esempi clamorosi di deep fake sono sempre più diffusi, ed hanno diversi impatti sociali, sulle persone bersaglio di deep fake, e su coloro che reputano il contenuto reale.
A partire dagli esempi citati di contenuti porno a scapito di celebrità – che hanno gioco facile nello smentire la veridicità dei filmati (questo era però meno vero agli inizi però, come nel caso di Scarlett Johansson che ha denunciato la diffusione nel 2018 di video prodotti nel 2017) – l’uso si è diffuso anche a danno di persone comuni, spesso nell’ambito di Revenge Porn (come esempio si veda un caso riportato dal Wall Street Journal).
Come esempi dichiaratamente falsi, rimasero nell’immaginario collettivo estero i video di Trump che pronunciava falsi discorsi nello Studio Ovale e Obama che commentava i deep fake.
In Italia ebbe particolare risonanza l’esempio mandato in onda da “Striscia la Notizia” nel 2019 perché rappresentò un caso di grande diffusione anche per un pubblico non abituato alla frequentazione di Internet (e social).
Tale video fu commentato pure da Massimo Gramellini, che azzardò “Profondo Falso” come traduzione italiana.
Vale la pena pure citare che esistono tecnologie generative che permettono di creare volti fotorealistici con nessuna attinenza a volti di persone reali (note e non). Tale tecnica può essere utilizzata per veicolare storie e contenuti spacciati per “reali” (perché riportati da una persona presunta “reale”, pur se sconosciuta) sempre per influenzare la pubblica opinione.
Guerra ibrida, il nuovo rapporto Microsoft: evidenze riscontrate e prospettive future
Programmi per produrre falsi video
Il già citato utente di Reddit deepfakes produsse la prima app del genere: FakeApp.
In seguito, sono stati prodotti altri software open source (ossia per cui è pubblicamente consultabile il codice sorgente): FaceSwap e DeepFaceLab.
Tali software sono comunque complessi da utilizzare: richiedono PC di media/elevata potenza elaborativa (con molta RAM ed una buona scheda grafica) e necessita di ore per allenare le reti neurali e mettere a punto un’elaborazione per ottenere risultati di buona qualità.
Molti altri software sono stati elencati e confrontati in un articolo di ricerca, dove sono analizzati anche software per modificare la voce e/o i movimenti labiali se non l’intero viso (par. 3 tabella 1).
Più facile da utilizzare (anche se i risultati sono più semplici) è un’app per cellulari: Reface.
Con tale app si può ad esempio:
- sovrapporre facce ad oggetti;
- scambiare una faccia ad un video utilizzando quella di una foto;
- animare il volto di un’immagine seguendo le espressioni facciali di un video caricato;
- far “parlare” un’immagine muovendo le labbra in modo coerente con un audio.
Nella versione gratuita i video possono essere prodotti a partire da video predefiniti brevi.
L’uso è molto semplice:
- possono essere caricate foto proprie (facendo un selfie) o di altre persone (caricandole dalla galleria), facendo attenzione che siano immagini frontali senza accessori come cappelli, piercing, orecchini ecc. (nell’esempio è selezionato Gene Wilder);
- poi va selezionata una fra le funzioni disponibili (ad es “Swap Faces”) su uno dei filmati già disponibili (ad es. un discorso di Obama);
- infine, si seleziona il volto e automaticamente viene “cambiata” la faccia.
Un esempio, riportato nella figura sottostante, è realizzando scambiando il volto di Gene Wilder a un discorso di Obama.
Come si può notare, l’effetto non è molto realistico per i diversi capelli e il diverso colore della pelle.
Un effetto migliore si ottiene, ad esempio, con Harrison Ford al posto di Trump (nella figura sottostante).
Si possono ottenere altri effetti, ad esempio animando una foto secondo il movimento di un filmato predefinito (“Animate Face”).
Si possono smascherare i deep fake?
Spesso alcuni video possono essere facilmente smascherati per la presenza di glitch (ossia dei salti nella riproduzione video di alcuni particolari), ma – col miglioramento dei software – tali effetti saranno sempre più rari.
Il MIT ha delineato difetti più precisi in un articolo in cui vengono delineati 8 punti:
- prestare attenzione alle facce (gli elementi prevalentemente manipolati);
- prestare attenzione a guance e fronte (in particolare se sono coerenti con altri elementi facciali;
- prestare attenzione a occhi e sopracciglia (in particolare alle ombre);
- prestare attenzione agli occhiali ed ai riflessi (se sono coerenti con l’illuminazione);
- prestare attenzione a peli del volto, baffi ecc.;
- prestare attenzione ai nei sul volto (se realistici);
- prestare attenzione al battito delle ciglia (troppo o poco frequente);
- prestare attenzione alla dimensione e colore delle labbra (se coerenti col resto del volto).
Il MIT ha anche messo a disposizione un test di autovalutazione sul riconoscimento dei falsi video.
Ai controlli precedenti possiamo aggiungere:
- controllare i dettagli delle mani (spesso hanno 6 dita, o articolazioni innaturali!); i produttori dei software stanno lavorando intensamente su tale dettaglio;
- controllare effetti di luce diversi in differenti parti della persona (volto, collo ecc.);
- controllare il colore della pelle (se il volto ed il resto della persona avessero incarnati differenti);
- controllare la risoluzione di diverse parti della persona (qualora i filmati di partenza avessero differenti risoluzioni);
- controllare attentamente il battito delle palpebre (i fotogrammi per l’allenamento della Rete Neurale con occhi chiusi sono pochi e poco distinti dato il veloce movimento).
È facile immaginare che tali controlli possano essere automatizzati in Software specifici che fanno uso sempre di Reti Neurali appositamente addestrate allo scopo: Microsoft dichiarò infatti nel 2020 di aver messo a punto uno strumento simile (Video Authenticator).
Certamente, però, qualora tali software fossero distribuiti in maniera aperta insieme ai sorgenti e dati di configurazione, le stesse tecniche potrebbero essere utilizzate per migliorare la qualità dei falsi video.
Una rassegna di metodologie teoriche di individuazione dei deep fake è recuperabile in un articolo accademico già citato (par. 5).
Information war e cyberwar: caratteristiche e tipologie degli attacchi informatici
Regolamentazione e informazione sui deep fake
Il problema sta diventando così diffuso e rilevante che alcuni enti si stanno occupando normare il settore, oltre che informare il grande pubblico.
La Commissione Europea ha varato delle linee guida sull’uso dell’Intelligenza Artificiale in cui viene data una definizione di deep fake (art. 52, comma 3) e viene richiamata la dovuta trasparenza nell’indicare video come falsi / manipolati.
In Italia, il Garante Privacy ha prodotto una scheda informativa per informare il grande pubblico e aumentarne la consapevolezza (in cui definisce deepnude i deep fake che riguardano falsi video di nudi), oltre a una pagina sul tema su cui sono riportati i vari provvedimenti (attualmente solo verso Telegram).
Conclusioni
Come visto nei precedenti paragrafi, i deep fake sono sempre più difficili da smascherare (quelli ottenuti coinvolgendo personaggi noti potrebbero essere smascherati consultando profili ufficiali e/o interpellando i diretti interessati), e stanno avendo sempre più impatto sociale nella diffusione di fake perché sta aumentando il realismo aumentandone la credibilità.
Certamente vedremo evoluzioni dei software che ridurranno i “problemi” attuali per aumentare il realismo dei falsi video, e con esso l’efficacia dell’inganno, come pure indicato dal Servizio di Ricerca della Comunità Europea.
La miglior arma contro i deep fake sarà uno spirito critico per chiedersi se il video ha ragione di esistere, e la ricerca di fonti indipendenti senza credere a singole fonti non confermate.