L’aggettivo digitale è ormai abusato e, come tale, sta perdendo valore sia nel suo significato principale sia nelle sue applicazioni. Sul trono dell’era digitale siede incontrastato il dato, il quanto subatomico che tende a scomparire agli occhi degli osservatori che parlano, operano e persino fanno del digitale il proprio core business.
Il dato, quella particella che forma il tutto digitale, va protetto e conservato al fine di garantirne qualità, consistenza e attendibilità, peculiarità che sono vitali anche per il machine learning che dà risultati migliori se alimentato da informazioni di qualità.
Quando si parla di machine learning operations (MLOps) la salvaguardia del dato deve agire a tre livelli: sul piano del dato, sul piano dello storage e sul piano dei livelli di apprendimento.
Attacchi sofisticati: difendersi con intelligenza artificiale, machine learning e automazione
Indice degli argomenti
Cosa sono le MLOps
I modelli di Machine learning rappresentano un punto focale per l’apprendimento automatico e, nel medesimo tempo, sono processi collaborativi e trasversali essenziali per ogni branca della Data science.
Quelle che vengono chiamate MLOps non sono una singola entità od operazione, ma un insieme di pratiche e principi che rispondono a quattro regole fondamentali, sottintesi a mantenere efficienti i modelli di apprendimento automatico.
- Riproducibilità
- Collaborazione
- Continuità
- Monitoraggio
Le MLOps devono potere adeguarsi a ogni modello di apprendimento automatico e devono essere riutilizzabili, diventano veri processi e come tali non possono essere considerate “usa e getta”.
Ciò comporta il concetto di collaborazione e, proprio perché comparabili a un processo aziendale, vanno monitorate – come del resto si fa con qualsiasi altra pratica di ricerca e ingegneristica – in modo continuo, per potere essere riutilizzate e dare vita a un nuovo ciclo fatto di riproducibilità, collaborazione, continuità e monitoraggio.
I processi MLOps sono ampi, complessi e multidisciplinari e come tali vanno intesi. Un esempio comprensibile anche a chi non ha un bagaglio tecnico approfondito lo offre Uber, che fa uso del Machine learning per diverse delle applicazioni che sviluppa e che fanno uso di dati su larga scala raccolti e analizzati da diversi gruppi di lavoro.
Per rendere omogeneo il flusso di lavoro tra i diversi gruppi coinvolti è stata creata una piattaforma, Uber Michelangelo, pensata proprio per supportare l’addestramento delle centinaia di modelli Machine learning su cui l’azienda fa affidamento per eseguire il proprio core business che include lo spostamento di persone e cose, come per esempio la consegna di pasti.
Quindi, per trovare una definizione di massima, le MLOps permettono l’integrazione rapida e continua dei modelli di Machine learning e permettono alle aziende di evincere un numero di informazioni maggiori e più accurata dai dati a propria disposizione. Definizione incompleta che è però sufficiente a comprendere quanto debbano essere protette dalle minacce.
Le principali minacce
Tra le diverse minacce che riguardano i modelli di machine learning ne svettano tre, ossia il poisoning, gli attacchi di ingegneria inversa e quelli backdoor.
Il poisoning consiste in questo caso nel manipolare un set di dati usati per l’addestramento, introducendone di sbagliati o etichettati in modo non opportuno riuscendo così a fare in modo che, i risultati forniti dal modello, siano del tutto inattendibili.
Un avvelenamento che può riguardare anche gli algoritmi, che possono essere a loro volta modificati così come possono esserne modificate le architetture, sortendo ancora una volta un’inaffidabilità dei risultati restituiti.
Gli attacchi basati sull’ingegneria inversa permettono agli hacker di utilizzare i modelli a proprio vantaggio. Le Intelligenze artificiali (IA) possono essere comprensibili o black box.
Si usa quest’ultimo termine quando è pressoché impossibile comprendere perché un’IA è giunta a un certo risultato. Una forma di riservatezza che oscura le logiche adottate dagli algoritmi ma che non è a prova di reverse engineering.
Gli attacchi backdoor permettono agli hacker di interferire con i modelli di machine learning, inserendone di diversi rispetto a quelli originali e andando così a modificare la fase di addestramento propriamente detta e, di conseguenza, a inficiare sull’output.
Edge computing e sicurezza, quali le sfide che le aziende si trovano ad affrontare
I livelli di sicurezza
Garantire un alto livello di sicurezza delle procedure MLOps è possibile se si tiene conto dei diversi livelli a cui operano i dati. Il primo di questi riguarda proprio i set di informazioni, che vanno protetti con delle policy di accesso ristrette e controllate, affinché possano essere usati soltanto da utenti autorizzati. A corredo, i dati dovrebbero essere crittografati e anonimizzati.
Politiche di sicurezza vanno estese anche ai dati nei rispettivi storage, obiettivi ideali di hacker e criminali (potenzialmente prezzolati da aziende concorrenti nel quadro dello spionaggio industriale) i quali, penetrando laddove tutti i dati sono archiviati, possono arrecare danni incalcolabili alle attività di machine learning della vittima designata.
Oltre alla sicurezza fisica (ridondanza, sistemi antincendio e controllo degli accessi e videocamere) vanno adottate delle misure di sicurezza predittiva che analizzino accessi a dati e attività anomale facendo scattare procedure di sicurezza mirate, aggiornate e rodate con cura. Altro elemento chiave è la distruzione dei dati non più necessari.
Anche i modelli necessitano di un apposito livello di sicurezza. In prima istanza, dovrebbero essere prelevati soltanto da repository ufficiali, così come dovrebbe accadere per gli algoritmi.
È molto frequente che le aziende usino modelli pre-addestrati e algoritmi di data mining diffusi, sarebbe quindi opportuno valutare i rischi che questi comportano. In seconda istanza, nulla vieta di creare algoritmi e modelli ad hoc senza per forza rimaneggiare quelli esistenti.
La logica secondo la quale non si dovrebbe rifare nulla di ciò che già esiste – per quanto valida – può essere subordinata a cause di forza maggiore qual è, per esempio, la sicurezza.
Data protection day, ecco i consigli degli esperti per tutelarsi in azienda
L’infrastruttura MLOps
Quando i modelli sono sviluppati e distribuiti, le loro prestazioni vanno monitorare e ottimizzate (fino al punto di valutare di riaddestrarli se non incontrano le aspettative).
Le infrastrutture e i servizi che convergono per le verifiche delle prestazioni dei modelli dovrebbero essere oggetto di monitoraggi continui, eseguiti mediante i log i quali, vanno affidati a occhi esperti.