Per le aziende è oggi necessario definire ed attuare una strategia di data governance che renda possibile la gestione del patrimonio informativo aziendale. Pratica indispensabile per un’efficace strategia gestionale a lungo termine, è la definizione del data lineage.
Indice degli argomenti
L’utilità del data lineage
La disponibilità pressoché infinita di informazioni digitali, provenienti dalle fonti più disparate, pone inevitabilmente una serie di problematiche di gestione che investono l’intero perimetro aziendale. La necessità di avere dati pronti, coerenti e corretti è sempre più sentita da tutti gli attori aziendali poiché consentono di operare scelte corrette e consapevoli. La quasi totalità dei dati esistenti (90%) è stata creata nello spazio di pochissimi anni: il motivo di tale consistente e repentina crescita va ricercato nella digital transformation. Di conseguenza, a prescindere dal settore e dalle dimensioni, nella scala delle priorità delle aziende non figura più la necessità di reperire informazioni, quanto quella di gestirle in maniera tale da riuscire a trarne un reale vantaggio competitivo.
Nell’ambito della strategia di data governance, uno degli aspetti basilari è rappresentato dalla definizione del data lineage, prerequisito per una efficace data quality e data protection. Il data lineage consiste nell’identificazione e rappresentazione del ciclo di vita del dato, dal sistema di origine fino a quello di destinazione, esplicitando le trasformazioni subite dal dato, i processi di riferimento e le relazioni di interdipendenza con gli altri dati: da questa prospettiva, il Data Lineage è un prerequisito per una ottimale data quality perché tanto più approfondita è la conoscenza dei sistemi e delle trasformazioni coinvolte nel ciclo di vita dei dati, tanto più efficace è la definizione dei controlli su di essi. Anche la data protection, tema diventato di grande attualità con l’entrata in vigore del regolamento sulla protezione dei dati (GDPR), beneficia di un corretto e completo data lineage: per procedere alla cancellazione dei dati personali, ad esempio, è prima di tutto necessario sapere esattamente in quali sistemi sono conservati così come, per assicurarne il corretto livello di accesso e la riservatezza, è essenziale sapere chi accede effettivamente a quei dati. Al di là di questi due importanti aspetti, i benefici del disporre di un data lineage corretto, completo e fruibile, sono molteplici e comprendono:
- Rappresentazione esplicita del ciclo di vita del dato dall’origine alla destinazione.
- Evidenza delle regole e delle trasformazioni subite da ogni dato/flusso.
- Possibilità di operare una “what-if analysis” in caso di modifiche a sistemi, flussi e dati.
- Supporto all’identificazione delle golden source per ogni nuova esigenza progettuale.
- Supporto all’identificazione delle ridondanze dei dati e riuso delle informazioni esistenti.
- Supporto alla verifica della completezza dei dati e della coerenza delle regole di business applicate.
- Identificazione del significato dei campi presenti nei report.
- Supporto all’identificazione degli utilizzatori dei dati e dei report.
- Supporto alla collaborazione tra le varie strutture aziendali su tematiche legate ai dati.
È evidente che un Data Lineage corretto e fruibile va a beneficio di diverse tipologie di utenti, sia in ambito business che IT: oltre al team di data governance ovviamente, i team di sviluppo e supporto, la cyber security, gli analisti, il Rischio e la Compliance possono trarre vantaggi tangibili dal disporre di una rappresentazione del ciclo di vita del dato attraverso i sistemi aziendali. È il caso, per fare un esempio, di una modifica al set informativo input di un sistema di front-end richiesta dalla funzione Compliance per garantire la conformità ad una normativa: in una situazione del genere, molto frequente, sapere quali sistemi siano interessati dalla modifica richiesta, quali siano gli utenti autorizzati all’accesso e i livelli di protezione garantiti, i report per il business o le autorità di vigilanza eventualmente impattati e, non ultima, l’esaustività dei controlli di data quality implementati e/o previsti, consente una razionalizzazione dell’effort necessario ad attuare la modifica in questione.
Data lineage dalla teoria alla pratica
Nella pratica, la definizione del data lineage viene realizzata a partire dalla conoscenza dei metadati. I metadati rappresentano le informazioni sui dati e possono essere riferiti a due grandi categorie: i metadati tecnici (o operativi) e i metadati di business.
I metadati tecnici descrivono la struttura, il formato e le regole per la memorizzazione dei dati, i metadati di business descrivono invece la terminologia aziendale, le regole e il contesto cui si riferiscono i dati. Comunemente, molti metadati di business sono detenuti dal know how personale dei dipendenti: in questi casi è importante prevedere un trasferimento di questa conoscenza in un formato elettronico fruibile per consentirne l’utilizzo e la condivisione con il resto dell’organizzazione.
Metadati di Business | Metadati Tecnici |
|
|
La gestione dei metadati può aiutare a razionalizzare l’archiviazione dei dati in tutta l’organizzazione, portando a significativi incrementi di efficienza, riduzione dei costi e riduzione dei rischi di mancata compliance alle normative o anche rischi reputazionali dovuti a definizioni errate.
Diverse le soluzioni oggi disponibili sul mercato a supporto di una strategia di Metadata Management: sebbene i metadati di business provengano da fonti prevalentemente non digitali, una gestione ottimale si realizza puntando all’implementazione di unico repository che sia poi punto di riferimento per un efficiente ed efficace decision making e auditing.
Gli indispensabili tool
Tipicamente l’implementazione dei tool per la gestione dei metadati prevede una fase di acquisizione /estrazione dei metadati dai repository/sistemi di origine per poi procedere ad una fase di razionalizzazione ed archiviazione in un repository unico.
Tale repository ha la finalità di rendere la consultazione accessibile e comprensibile ad una vasta platea di utenti, non necessariamente in possesso di specifiche competenze tecniche, favorire la collaborazione tra gli utenti interessati all’utilizzo del dato e agevolare la produzione di reportistica ai fini regolamentari e di business. Difficilmente la gestione dei metadati può prescindere dal ricorso a tali tool: in primo luogo perché la raccolta dei metadati richiede un effort considerevole e protratto nel tempo, spesso reso difficoltoso dalle continue modifiche ai sistemi informativi, secondariamente perché senza una loro razionalizzazione, archiviazione e la possibilità di una rapida consultazione, i benefici di una strategia di MDM sono pressoché azzerati.
Ovviamente la spinta regolamentare ha fatto sì che siano stati soprattutto gli istituti bancari e i grandi gruppi assicurativi ad avere intrapreso azioni di MDM inserite in una più ampia strategia di data governance, tuttavia la necessità di razionalizzare, gestire e quindi valorizzare il proprio patrimonio informativo riguarda tutti i settori industriali, sempre più data driven e orientati all’innovazione dei propri prodotti, processi e servizi.
In definitiva, la gestione dei dati non può essere concepita come una problematica di esclusiva competenza IT ma anzi richiede una stretta collaborazione tra funzioni di business e funzioni IT, di conseguenza l’adozione di soluzioni fruibili da entrambi i mondi costituisce una scelta molto sensata. Non va poi dimenticato che la data governance, e le discipline connesse, richiedono un cambio culturale notevole, che non può essere confinato ad alcuni reparti o ambiti dell’organizzazione ma deve avere una sponsorship forte e deve essere diffusa con iniziative di formazione e change management ad hoc. Una visione strategica e ed il coinvolgimento di tutte le strutture aziendali sono quindi assolutamente necessari per realizzare un reale data driven business.