La galleria degli errori in tema di Data Quality è ampia e variegata e rappresenta purtroppo un problema non di poco conto nella gestione dell’operatività quotidiana e nei bilanci delle aziende.
Mutui con scadenza nel 2190. Sequenze di numeri identici come recapiti telefonici o di lettere come codici fiscali dei clienti. Indirizzi costituiti dalla sola indicazione dello Stato.
Se un indirizzo errato può tradursi in un mancato contatto con il cliente ed incidere quindi sul livello di servizio offerto, un impatto ben diverso si avrà quando un dato “sbagliato” contribuisce alla determinazione del profilo di rischio, pur trattandosi del medesimo problema.
Indice degli argomenti
Data Quality, cresce la consapevolezza
La consapevolezza del peso che dati di alta qualità hanno nel supportare decisioni informate e, viceversa, delle conseguenze disastrose cui dati inaccurati possono portare, è (fortunatamente) cresciuta di pari passo con il diffondersi delle fonti informative a disposizione delle aziende, creando sempre più forte l’esigenza di una gestione adeguata della qualità dei dati aziendali.
La spasmodica corsa del Business nel definire prodotti sempre più personalizzati, nell’offrire servizi sempre più on-demand e nel raggiungere una base clienti sempre più ampia, ha sostenuto infatti l’inevitabile diffondersi delle tecnologie legate ai big data, al cloud, al machine learning.
Questa evoluzione tecnologica tuttavia non è sempre stata accompagnata da una opportuna strategia di gestione dei dati determinando, nella fretta di accumulare più dati possibili, il precipitare del livello di qualità degli stessi.
Ma cosa si intende quando si parla di qualità dei dati e come si misura? Le best practice in questo ambito suggeriscono l’utilizzo di opportune metriche per la definizione e la misurazione della qualità del dato.
Come misurare la qualità dei dati
Tra le metriche più comuni troviamo:
- completezza – ad esempio: i dati presenti nel sistema informativo sono tutti quelli necessari al processo/i per cui sono stati raccolti?
- accuratezza – ad esempio: i dati nel sistema informativo assumono valori precisi e rappresentativi dell’informazione che definiscono?
- tempestività – ad esempio: i tempi di acquisizione/produzione dei dati sono utili per gli scopi del processo/i cui sono destinati?
- coerenza – ad esempio: i dati presenti nel sistema informativo sono non contradittori tra loro?
- univocità – ad esempio: i dati rappresentativi della stessa informazione presenti in diversi componenti del sistema informativo assumono lo stesso valore?
- integrità – ad esempio: i dati presenti nel sistema informativo corrispondono a quelli originariamente immessi?
- conformità formale– ad esempio: i dati immessi nel sistema informativo rispettano gli standard formali appositamente definiti?
La scelta delle metriche è fondamentale per procedere alla misurazione del livello di qualità dei dati.
Diversi gli standard che propongono una definizione delle dimensioni di qualità dei dati: oltre a quelle definite dal DAMA, lo standard ISO-25012 propone ad esempio una serie alternativa di metriche, distinguendole tra caratteristiche inerenti al dato e caratteristiche dipendenti dal sistema.
A prescindere dalla scelta dello standard da utilizzare, determinare la qualità dei dati sulla base di metriche di valutazione condivise, oggettive e replicabili, è assolutamente necessario.
Gli step per garantire la Data Quality
Garantire la qualità del dato richiede però un approccio strutturato, progressivo e iterativo, in grado di guidare l’organizzazione verso il raggiungimento di livelli di maturità crescenti in ambito Data Quality.
Operativamente il primo passo è rappresentato da una fase di definizione degli obiettivi da perseguire, che specifichi il perimetro dei dati interessati e le regole di qualità da applicare.
Per fare un esempio concreto si può ipotizzare di avere come obiettivo l’attribuzione di un codice identificativo univoco ai clienti, su tutti i sistemi aziendali. I dati da trattare saranno quindi quelli anagrafici, le regole dovranno imporre che il codice cliente sia univoco su tutto il sistema informativo, dovranno essere applicate in fase di creazione dell’anagrafica cliente e di integrazione nel caso tale anagrafica sia creata attraverso interfacce diverse, come spesso accade quando si hanno diverse linee di prodotto/servizio.
Stabiliti gli obiettivi da raggiungere, il passo successivo è rappresentato da una fase di assessment del livello di qualità attuale dei dati oggetto dell’intervento, da effettuarsi rispetto alle metriche e alle regole prima definite.
Riprendendo l’esempio specifico, ciò significherà anzitutto identificare tutti i sistemi e i processi coinvolti nella creazione e gestione delle anagrafiche clienti, quindi nell’individuare tutte le casistiche di mancata univocità del dato.
Perché tale percorso abbia successo è tuttavia fondamentale coinvolgere i referenti del processo/dati, sia business che IT, affinché supportino l’analisi dell’As-Is e la definizione delle azioni di remediation più opportune.
Obiettivo della fase di assessment è infatti anche l’identificazione delle cause di non qualità dei dati: le origini della di scarsa qualità dei dati infatti sono molteplici ma possono essere riferite a grandi linee alle fasi di immissione dati (data entry), elaborazione, integrazione, conversione nonché alla obsolescenza (nel tempo).
Alla luce di ciò è evidente che la collaborazione del business e dell’IT è necessaria per identificare errori nel processo o nei sistemi al fine di definire le misure correttive più opportune. Per fare un esempio si può ipotizzare di procedere ad una bonifica una tantum della base di dati sulla scorta delle regole definite (data cleaning), quindi optare per una soluzione di data quality sulla quale implementare gli opportuni controlli, se non già presenti.
I KQI: come definire i Key Quality Indicator
Qualora nel contesto analizzato siano già in essere dei controlli, come spesso accade, magari realizzati con linguaggi e tool diversi, la soluzione più opportuna potrà consistere nello standardizzare l’applicazione della regola sui vari sistemi considerati. In pratica ciò potrebbe voler dire assicurarsi che esista il controllo “verificare che il codice cliente sia unico”, assicurandosi che sia attivo e presidiato su tutti i sistemi in ambito.
Gli esiti dei controlli sui diversi sistemi, oltre ad essere opportunamente monitorati, dovranno poi essere opportunamente riepilogati su un’unica dashboard onde ottenere un quadro chiaro del livello di qualità dei dati considerati.
A tal fine dovranno essere definiti degli opportuni KQI – Key Quality Indicator, indicatori di sintesi della qualità del dato. In questo caso un KQI sull’univocità del dato potrebbe essere ragionevolmente rappresentato dal rapporto tra le occorrenze di esiti “OK” e il totale dei controlli eseguiti, ossia la percentuale dei casi in cui il dato è corretto.
Incrementare questa percentuale diventa quindi l’obiettivo della fase successiva dell’approccio proposto, fase finalizzata a individuare le aree di miglioramento ed indirizzare le azioni volte a incrementare il livello di qualità del dato.
Tali azioni costituiranno la base di specifici piani di miglioramento della data quality, corredati di stima dei tempi e dei costi connessi. Essenziale prevedere il coinvolgimento di tutte le parti in causa alle quali dovrà essere fornita la formazione più adeguata.
Un piano di miglioramento potrà infatti prevedere sia modifiche tecniche che modifiche di processo: in entrami i casi gli attori coinvolti dovranno essere informati sulle eventuali modifiche apportate alle procedure in essere. Ad esempio: “l’inserimento di una anagrafica cliente dovrà seguire un preciso workflow accessibile solo dal team leader del gruppo vendite, attraverso l’interfaccia XYZ. Per attivarlo dovrà essere fornito il codice fiscale oltre ai consueti nome e cognome”.
Conclusione
L’iteratività dell’approccio proposto si concretizza infine nella fase di verifica periodica dei risultati ottenuti rispetto agli obiettivi di business e alle regole definiti nella fase di pianificazione iniziale.
Perché questa verifica sia efficace, occorre condividere regolarmente con tutte le parti interessate lo stato corrente della qualità dei dati aziendali, specificando le metriche utilizzate, allo scopo di mantenere costantemente alta l’attenzione sul tema da parte di tutta l’organizzazione.
In conclusione, garantire la qualità dei dati aziendali è essenziale per assicurare al business una base decisionale corretta, completa e accurata. La data quality non deve essere concepita come un progetto IT ma affrontata come una tematica di vitale importanza per il business, che opera le sue scelte in base alle informazioni di cui dispone.
Per tale motivo è essenziale comprendere appieno il proprio contesto, i processi attuati e i dati utilizzati, allo scopo di identificare il più precisamente possibile il perimetro su cui concentrare le azioni volte ad incrementare il livello di qualità dei dati.
Ottenuta la sponsorship del business, è quindi opportuno adottare un approccio operativo strutturato, progressivo e iterativo, in grado di definire le modalità, gli strumenti e le tempistiche più idonee per incrementare il livello di qualità dei dati aziendali nel contesto considerato.