Le organizzazioni che intendono sfruttare il potenziale dei Large Language Models (LLM) nei propri sistemi critici interni (gestionali, operativi e produttivi) o processi esterni (comunicazione, marketing e commerciali) devono procedere con cautela, come affermato nella nota asserzione: “Bisogna cogliere le opportunità offerte dall’intelligenza artificiale (AI), gestendone al contempo i rischi”.
Per aderire a questo principio, le organizzazioni devono innanzitutto essere in grado di ottenere misurazioni valide e affidabili delle prestazioni del sistema LLM adottato.
A questo proposito sono state sviluppate diverse metodologie per garantire la
sicurezza dell’IA.
Ecco un approccio olistico alla valutazione dei LLM che va oltre la precisione.
Indice degli argomenti
Premessa
Affinché un sistema LLM sia efficace, deve essere preciso, anche se questo concetto può risultare vago per alcuni sistemi di intelligenza artificiale. Tuttavia, affinché sia affidabile, deve anche essere regolabile e stabile.
Questo approccio alla valutazione dei LLM [tabella 1] è rilevante per qualsiasi organizzazione che voglia sfruttare in modo responsabile il potenziale dei LLM.
I LLM sono sistemi versatili in grado di svolgere un’ampia varietà di compiti in diversi contesti. La vasta gamma di possibili applicazioni rende la valutazione dei LLM più complessa rispetto ad altri tipi di sistemi di Machine Learning (ML). Per esempio, un’applicazione di computer vision potrebbe avere un compito specifico, come la diagnosi di immagini radiologiche, mentre un’applicazione di LLM può rispondere a domande di conoscenza generale, descrivere immagini e correggere errori di codifica.
Per affrontare questa sfida, alcuni ricercatori hanno introdotto il concetto di valutazioni olistiche, che consistono in insiemi di test che riflettono le diverse proprietà dei LLM. Un esempio recente è l’Holistic Evaluation of Language Models (HELM).
Sviluppato a Stanford dal gruppo di ricercatori diretti da Liang, il framework HELM comprende sette misure quantitative per valutare le prestazioni dei Large Language Models (LLM). Le metriche di HELM possono essere raggruppate in tre categorie:
- requisiti delle risorse (efficienza);
- allineamento (equità, pregiudizi e stereotipi, nonché tossicità);
- abilità (precisione, regolazione e stabilità).
Basandoci su tale studio, ci concentriamo sull’ultima categoria di metriche: l’abilità.
Valutaione delle proprietà: la precisione
La ricerca citata fornisce una descrizione dettagliata della precisione dei modelli LLM per il framework HELM: “La precisione è la proprietà più ampiamente studiata e solitamente valutata nell’ambito dell’intelligenza artificiale. In altre parole, i sistemi di IA non sono utili se non sono precisi. In questo lavoro, utilizzeremo l’espressione ‘precisione’ in senso generico per indicare la metrica standard, simile alla precisione, per ogni scenario. Ci riferiamo, tra l’altro, alla precisione della corrispondenza esatta nella classificazione dei testi, al punteggio F1 per la sovrapposizione delle parole nella risposta alle domande, ai punteggi MRR e NDCG per il recupero delle informazioni e al punteggio Rouge per la sintesi. È importante sottolineare l’assunto implicito secondo cui la precisione viene misurata in media sulle istanze di prova”.
Questa definizione evidenzia tre caratteristiche della precisione. In primo luogo, il livello minimo di precisione accettabile varia a seconda della posta in gioco. Per esempio, il livello di precisione necessario per le applicazioni critiche per la sicurezza, come i sistemi d’arma, è molto più elevato rispetto alle funzioni amministrative di routine.
Nei casi in cui si verificano errori nel modello, l’impatto può essere mitigato mantenendo o potenziando la supervisione umana.
Pertanto, sebbene la precisione sia una caratteristica intrinseca del LLM, il livello di precisione richiesto è determinato dal compito, dalla natura e dal livello di coinvolgimento umano.
In secondo luogo, la precisione viene misurata in modi specifici per ogni problema.
La precisione di un LLM può variare a seconda che si tratti di rispondere a domande, riassumere testi o categorizzare documenti. Di conseguenza, le prestazioni di un LLM sono meglio rappresentate da un insieme di metriche di precisione piuttosto che da un singolo valore. Per esempio, un LLM come LLAMA-7B può essere valutato utilizzando la precisione della corrispondenza esatta per le domande sulle proprietà delle minacce, mentre Rouge può essere valutato per la sintesi dei documenti di intelligence o per la revisione da parte di esperti per la generazione di scenari.
Queste metriche vanno da quelle automatiche e oggettive (esattezza della
corrispondenza) a quelle manuali e soggettive (revisione da parte di esperti).
Ciò significa che un LLM può essere sufficientemente preciso per alcuni compiti, ma non per altri. Inoltre, ciò implica che la precisione è difficilmente definibile per molti dei compiti per i quali i LLM possono essere utilizzati.
In terzo luogo, la precisione di un LLM dipende dall’input specifico utilizzato. In genere, la precisione viene riportata come media di tutti gli esempi utilizzati durante i test, il che può mascherare le variazioni di prestazioni in relazione a specifici tipi di domande.
Ad esempio, un LLM progettato per rispondere alle domande potrebbe mostrare un’elevata precisione nelle interrogazioni sulle tattiche, le tecniche e le procedure avversarie (TTP), ma una precisione inferiore nelle interrogazioni sulle operazioni multi-dominio.
Pertanto, la precisione globale può oscurare i tipi di domande che possono indurre un LLM a commettere errori.
Regolazione
Il framework HELM fornisce anche una definizione completa di regolazione: “Quando i modelli di apprendimento automatico sono integrati in sistemi più ampi, è fondamentale che questi modelli siano, al contempo, precisi e in grado di esprimere la loro incertezza. La regolazione e l’espressione appropriata dell’incertezza del modello sono particolarmente importanti per la fattibilità dei sistemi in contesti ad alto rischio, inclusi quelli in cui i modelli informano il processo decisionale, come accade sempre più spesso nel campo delle tecnologie linguistiche, man mano che il loro campo di applicazione si amplia. Se un modello è incerto nelle sue previsioni, per esempio, il progettista del sistema potrebbe affidare il compito a un essere umano per evitare un potenziale errore”.
Questo concetto di regolazione presenta due caratteristiche. In primo luogo, la
regolazione è separata dalla precisione. Un modello preciso può essere mal tarato, il che significa che in genere risponde correttamente, ma non indica una bassa fiducia quando è probabile che non sia corretto.
In secondo luogo, la regolazione può migliorare la sicurezza. Poiché è improbabile che un modello abbia sempre ragione, la capacità di segnalare l’incertezza può consentire all’uomo di intervenire, evitando potenzialmente errori.
Un terzo aspetto della regolazione, non menzionato in questa definizione, è che il modello può esprimere il suo livello di verità. In generale, per estrarre conoscenze o informazioni affidabili è possibile utilizzare approcci white-box o black-box.
Gli approcci white-box si basano sulla forza dell’evidenza, o probabilità, di ogni parola selezionata dal modello.
Gli approcci black-box, invece, prevedono che si chieda al modello quanto è sicuro (cioè, prompting) o che si osservi la sua variabilità quando gli si pone la stessa domanda più volte (cioè, sampling).
Rispetto alle metriche di precisione, quelle di regolazione non sono altrettanto standardizzate né ampiamente utilizzate.
Stabilità
Lo studio offre una definizione vaga di stabilità: “Quando vengono impiegati nella pratica, i modelli devono confrontarsi con le complessità del mondo aperto (per esempio gli errori di battitura) che causano un degrado significativo della maggior parte dei sistemi attuali.
Pertanto, per valutare meglio le prestazioni di questi modelli in situazioni reali, dobbiamo ampliare la nostra analisi al di là delle istanze esatte contenute nei nostri scenari. Per raggiungere questo obiettivo, misuriamo la stabilità dei diversi modelli valutandoli sulle trasformazioni di un’istanza. In altre parole, per un determinato insieme di trasformazioni per una determinata istanza, misuriamo le prestazioni del modello nel caso peggiore attraverso tali trasformazioni.
Perciò, affinché un modello abbia buone prestazioni secondo questa metrica, è necessario che abbia buone prestazioni in tutte le trasformazioni dell’istanza”.
Questa definizione evidenzia tre aspetti della stabilità. In primo luogo, quando i modelli vengono utilizzati in contesti reali, si imbattono in elementi che non sono inclusi nei contesti dei test controllati.
Per esempio, gli esseri umani possono inserire richieste contenenti errori di battitura, errori grammaticali e nuovi acronimi e abbreviazioni.
In secondo luogo, queste sottili modifiche possono degradare in modo significativo le prestazioni di un modello. I LLM non elaborano il testo come gli esseri umani.
Di conseguenza, quelle che possono sembrare modifiche minori o banali nel testo possono ridurre in modo significativo la precisione di un modello.
In secondo luogo, queste sottili modifiche possono degradare in modo significativo le prestazioni di un modello. I LLM non elaborano il testo come gli esseri umani. Di conseguenza, quelle che possono sembrare modifiche minori o banali nel testo possono ridurre in modo significativo la precisione di un modello.
La definizione citata riguarda principalmente la stabilità del modello, ovvero la sua capacità di gestire input rumorosi. Tuttavia, sono importanti anche altre dimensioni della stabilità, soprattutto nel contesto della sicurezza e dell’affidabilità:
- La stabilità out-of-distribution: si riferisce alla capacità di un modello di gestire nuovi soggetti. Ad esempio, si verifica quando i nuovi soggetti provengono da domini non inclusi nei dati utilizzati per l’addestramento.
- La stabilità del task: si riferisce all’abilità di un LLM, destinato a un compito specifico, di mantenere un alto livello di prestazioni quando viene applicato a compiti diversi.
- La stabilità adversarial: riguarda la proprietà di un modello di resistere ai tentativi di manipolazione o di riduzione delle sue prestazioni da parte di avversari intelligenti. In molti scenari, in particolare in aree sensibili alla sicurezza, i modelli possono trovarsi di fronte a tentativi deliberati di ingannarli o confonderli. La stabilità del modello ne assicura l’affidabilità e la precisione anche in presenza di tali attacchi.
Implicazioni in termini di precisione, regolazione e stabilità per la sicurezza dei LLM
Come già detto, la precisione è ampiamente utilizzata per valutare le prestazioni dei modelli, grazie alla sua chiara interpretazione e al suo collegamento con l’obiettivo di creare sistemi che rispondano correttamente. Tuttavia la precisione non fornisce un quadro completo.
Supponendo che un modello soddisfi lo standard minimo di precisione, le dimensioni aggiuntive della regolazione e della stabilità possono essere organizzate per creare una matrice.
La figura seguente si basa sulle metriche di capacità del quadro HELM e illustra i compromessi e le decisioni di progettazione che si verificano nei loro punti di intersezione.
I modelli privi di regolazione e di stabilità sono ad alto rischio e generalmente non sono adatti per un impiego sicuro. Al contrario, i modelli che presentano sia la regolazione che la stabilità sono ideali e presentano un rischio minimo. La matrice presenta anche due scenari intermedi: modelli stabili ma non tarati e modelli tarati ma non stabili.
Questi rappresentano un rischio moderato e richiedono un approccio più sfumato per un impiego sicuro.
Considerazioni in base al tipo di attività da svolgere
Le caratteristiche del compito e il contesto determinano se il sistema LLM che
esegue il task deve essere stabile o deve essere stato tarato, o entrambi. I task con ingressi imprevedibili e inaspettati richiedono un LLM stabile.
Un esempio è il monitoraggio dei social media per segnalare i post che riportano attività significative.
Il LLM deve essere in grado di gestire ampie variazioni di testo nei post dei social media. Rispetto ai sistemi software tradizionali e anche ad altri tipi di IA, gli input per i LLM tendono a essere più imprevedibili. Di conseguenza, i sistemi LLM sono generalmente in grado di gestire questa variabilità.
I task con conseguenze significative richiedono un LLM su misura. Un esempio è la pianificazione dell’attacco aereo (MAAP). A fronte di rapporti di intelligence contrastanti, il LLM deve segnalare un basso livello di fiducia quando gli viene chiesto di fornire una valutazione dei danni funzionali di un elemento del sistema di difesa aerea dell’avversario.
Data la bassa fiducia, i pianificatori umani possono selezionare opzioni d’azione più sicure ed emettere richieste di raccolta dati per ridurre l’incertezza.
La regolazione può compensare i limiti delle prestazioni del LLM, ma solo se interviene un operatore umano. Questo non è sempre possibile. Un esempio è rappresentato da un veicolo aereo senza pilota (UAV) che opera in un ambiente privo di comunicazioni.
Se un LLM per la pianificazione delle azioni dell’UAV ha un basso livello di certezza e non può comunicare con un operatore umano, il LLM deve agire autonomamente. Di conseguenza, i compiti con bassa supervisione umana richiedono un LLM stabile.
Tuttavia, questo requisito è influenzato dalle potenziali conseguenze del compito stesso. Finora, nessun sistema LLM ha ancora dimostrato prestazioni sufficientemente robuste per svolgere un compito critico per la sicurezza senza supervisione umana.
Strategie di progettazione per migliorare la sicurezza
Quando si crea un sistema LLM, l’obiettivo principale è utilizzare modelli che siano intrinsecamente accurati, regolati e stabili. Tuttavia, come illustrato nella Tabella 2, è possibile adottare delle strategie supplementari per aumentare la sicurezza dei sistemi LLM che non presentano un livello di stabilità o regolazione sufficiente.
Per aumentare la stabilità, potrebbero essere necessarie delle azioni aggiuntive:
- Il monitoraggio degli input: il sistema può avvalersi di metodi automatizzati per la rilevazione. Ciò include l’identificazione degli input che fanno riferimento ad argomenti non inclusi nell’addestramento del modello o che sono forniti in forme inaspettate. Un modo per farlo è misurare la somiglianza semantica tra l’input e i campioni di addestramento.
- La trasformazione degli input: il sistema sviluppa metodi di pre-elaborazione degli input per ridurre la suscettibilità alle perturbazioni e garantire che il modello riceva input strettamente allineati all’ambiente di addestramento.
- L’addestramento del modello: si utilizzano tecniche quali l’aumento dei dati e l’integrazione dei dati avversari per creare LLM robusti contro le variazioni naturali e gli attacchi avversari.
- La formazione e l’addestramento degli utenti: consente di illustrare i limiti delle prestazioni del sistema e insegnano come fornire input accettabili.
Sebbene queste strategie possano migliorare la stabilità del LLM, potrebbero non risolvere i problemi. Pertanto, potrebbero essere necessarie ulteriori misure per migliorare la regolazione:
- Il monitoraggio degli output richiede la presenza di un supervisore nel loop che fornisca una supervisione continua al LLM, soprattutto per le decisioni critiche o quando la fiducia nel modello è bassa. Tuttavia, è importante riconoscere che questa strategia potrebbe rallentare le risposte del sistema e dipende dalla capacità dell’uomo di distinguere tra output corretti e non corretti.
- La stima della fiducia aumentata applica tecniche algoritmiche, come i regolatori esterni o la fiducia registrata dal LLM, per valutare automaticamente l’incertezza del risultato del sistema. Il primo metodo prevede l’addestramento di una rete neurale separata per prevedere la probabilità che l’output del Large Language Model (LLM) sia corretto, sulla base dell’input, dell’output stesso e dell’attivazione delle unità nascoste negli strati intermedi del modello. Il secondo metodo consiste nel chiedere direttamente al modello di valutare la propria fiducia nella risposta fornita.
- La progettazione centrata sull’uomo pone l’accento sulla comunicazione efficace della fiducia riposta nel modello agli esseri umani. La letteratura in materia di psicologia e scienza delle decisioni ha documentato errori sistematici nel modo in cui le persone elaborano il rischio, insieme a una progettazione centrata sull’utente.
Garantire la sicurezza delle applicazioni dei LLM nei processi aziendali
I LLM hanno la capacità di trasformare i processi aziendali esistenti in tutti i settori, pubblico, privato e governativo.
Quando le organizzazioni cercano di utilizzare i LLM, devono adottare misure per garantirne l’uso sicuro. A tale scopo, è fondamentale condurre valutazioni delle proprietà dei LLM.
Per essere utili, i LLM devono soddisfare standard minimi di precisione. Devono anche soddisfare standard minimi di regolazione e stabilità per garantire la sicurezza.
Se questi standard non sono soddisfatti, il LLM può essere impiegato in un ambito più ristretto o il sistema può essere sottoposto a vincoli aggiuntivi per ridurre il rischio.
Tuttavia, le organizzazioni possono adottare decisioni informate sull’uso e la progettazione dei sistemi LLM solo se adottano una definizione completa delle abilità che comprenda precisione, regolazione e stabilità.