italsystems |
gestionali |
|
ETL - DATA INTEGRATION |
|
MISURARE LA QUALITÀ DEI DATI Raramente gli archivi possono essere considerati perfetti, in quanto spesso si presentano problemi di: • incompletezza • inadeguatezza • inaccuratezza • obsolescenza • presenza di duplicati delle unità Determinare il livello di qualità dei dati posseduti da un’azienda è un’operazione complessa. Per determinare la bontà dei dati è necessario definire delle metriche attraverso le quali misurare la qualità dei dati. Tuttavia, è molto difficile definire delle metriche universalmente valide in quanto la correttezza dei dati è profondamente legata ai singoli contesti operativi. La qualità del dato è un concetto multidimensionale la cui valutazione implica la definizione di metriche soggettive, adattabili ad un particolare contesto di business. È comunque possibile tentare di definire delle metriche universali indipendenti dal contesto di utilizzo dei dati. Pertanto si possono individuare due tipologie di valutazione : Metriche di valutazione indipendenti dal contesto o oggettive: metriche che riflettono lo stato dei dati senza considerare come e dove vengono utilizzati; Metriche di valutazione dipendenti dal contesto o soggettive: misurazioni che tengono in considerazione il contesto di utilizzo, regole, caratteristiche e vincoli del business di riferimento. Dei possibili indicatori per accertare la qualità dei dati indipendentemente dal contesto di utilizzo sono proposti da Thomas Redman.. Redman propone due semplici indicatori in grado di determinare il livello di correttezza di un insieme di dati: Correttezza a livello di attributi Correttezza a livello di record In un database contente 100 record, dove ogni record è composto da 12 attributi, ipotizzando la presenza di 20 errori in record diversi si otterrebbero i seguenti risultati: A livello di attributi A livello di record Secondo Redman il livello di correttezza a livello di record è un buon indicatore di qualità della base di dati in quanto permette di identificare la percentuale di record che contengono degli errori. Tuttavia, senza tenere conto del contesto di utilizzo dei dati tali misurazioni potrebbero risultare falsate. Altre tipologie di metriche oggettive fanno uso di tecniche matematico-statistiche per determinare il livello di completezza e correttezza dei dati. Ad esempio è possibile utilizzare l’analisi dell’andamento temporale dei dati che permette di determinare gli scostamenti dal valore atteso e di identificare eventuali problematiche. La definizione di metriche in grado di considerare il contesto passa dalla definizione delle dimensioni attraverso cui valutare la qualità dei dati. Per determinare quali sono i criteri più rilevanti rispetto a cui misurare la qualità dei dati in un determinato contesto molte sono le soluzioni. Dimensioni e metriche Rilevanza o pertinenza (contents/relevance) Capacità dell'informazione di rispondere agli obiettivi conoscitivi .
Accuratezza (accuracy) Grado di corrispondenza fra il dato e il vero valore della caratteristica in oggetto.
Tempestività e puntualità (timeliness) Capacità di produrre i risultati in tempi ravvicinati rispetto all’utilizzo.
Regolarità Riguarda la diffusione dei dati ed indica la frequenza
Accessibilità o disponibilità (accessibility/vailability) Possibilità che gli utilizzatori hanno di entrare in possesso del dato
Chiarezza (clarity) Disponibilità di documentazione appropriata relativa alle varie caratteristiche .
Comparabilità Possibilità di paragonare nel tempo e nello spazio i dati riguardanti il fenomeno di interesse relativamente alla stessa fonte.
Verificabilità È relativa alla necessità che una procedura preveda anche le istruzioni volte a definire i metodi, gli strumenti e le informazioni che consentono di controllare l’applicazione.
Coerenza (coherence) Questo concetto è connesso all’utilizzo di più fonti relative ad uno stesso fenomeno ed in particolare per informazioni prodotte con diversa periodicità.
Praticabilità Definisce il grado di compatibilità delle procedure con il contesto culturale entro il quale devono essere applicate
Completezza Si tratta di una caratteristica trasversale ai singoli processi e consiste nella capacità di questi integrarsi per fornire un quadro informativo soddisfacente del dominio di interesse.
Data integration is a process by which several
Riferimenti : Software utilizzato : TOS talend open studio (open source) Personale tecnico : Team tecnico professionale Email : info@italsystems.it
Articoli correlati : Integrazione di dati di ambienti informatici eterogenei (etl - data integration)
|
||
. |
. |
>