italsystems

 gestionali

ITALSYSTEMS

 ETL - DATA INTEGRATION

 

MISURARE LA QUALITÀ DEI DATI

Raramente gli archivi possono essere considerati perfetti, in quanto spesso si presentano problemi di:

         incompletezza

         inadeguatezza

         inaccuratezza

         obsolescenza

         presenza di duplicati delle unità

Determinare il livello di qualità dei dati posseduti da un’azienda è un’operazione complessa. Per determinare la bontà dei dati è necessario definire delle metriche attraverso le quali misurare la qualità dei dati.

Tuttavia, è molto difficile definire delle metriche universalmente valide in quanto la correttezza dei dati è profondamente legata ai singoli contesti operativi. La qualità del dato è un concetto multidimensionale la cui valutazione implica la definizione di metriche soggettive, adattabili ad un particolare contesto di business.

È comunque possibile tentare di definire delle metriche universali indipendenti dal contesto di utilizzo dei dati. Pertanto si possono individuare due tipologie di valutazione :

Metriche di valutazione indipendenti dal contesto o oggettive: metriche che riflettono lo stato dei dati senza considerare come e dove vengono utilizzati;

Metriche di valutazione  dipendenti dal contesto o soggettive: misurazioni che tengono in considerazione il contesto di utilizzo, regole, caratteristiche e vincoli del business di riferimento.

Dei possibili indicatori per accertare la qualità dei dati indipendentemente dal contesto di utilizzo sono proposti da Thomas Redman.. Redman propone due semplici indicatori in grado di determinare il livello di correttezza di un insieme di dati:

Correttezza a livello di attributi

Correttezza a livello di record

In un database contente 100 record, dove ogni record è composto da 12 attributi, ipotizzando la presenza di 20 errori in record diversi si otterrebbero i seguenti risultati:

A livello di attributi

A livello di record

Secondo Redman il livello di correttezza a livello di record è un buon indicatore di qualità della base di dati in quanto permette di identificare la percentuale di record che contengono degli errori. Tuttavia, senza tenere conto del contesto di utilizzo dei dati tali misurazioni potrebbero risultare falsate.   Altre tipologie di metriche oggettive fanno uso di tecniche matematico-statistiche per determinare il livello di completezza e correttezza dei dati. Ad esempio è possibile utilizzare l’analisi dell’andamento temporale dei dati che permette di determinare gli scostamenti dal valore atteso e di identificare eventuali problematiche.

La definizione di metriche in grado di considerare il contesto passa dalla definizione delle dimensioni attraverso cui valutare la qualità dei dati. Per determinare quali sono i criteri più rilevanti rispetto a cui misurare la qualità dei dati in un determinato contesto molte sono le soluzioni.

Dimensioni e metriche 

Rilevanza o pertinenza (contents/relevance)

 Capacità dell'informazione di rispondere agli obiettivi conoscitivi . 

 

Accuratezza (accuracy)

 Grado di corrispondenza fra il dato e il vero   valore della caratteristica in oggetto.

 

Tempestività e puntualità (timeliness)

Capacità di produrre i risultati in tempi ravvicinati rispetto all’utilizzo.

 

Regolarità

      Riguarda la diffusione dei dati ed indica la frequenza

 

Accessibilità o disponibilità (accessibility/vailability)

Possibilità che gli utilizzatori hanno di entrare in possesso del dato

 

Chiarezza (clarity)

 Disponibilità di documentazione appropriata relativa alle varie caratteristiche . 

 

Comparabilità

 Possibilità di paragonare nel tempo e nello spazio i dati riguardanti il fenomeno di interesse relativamente alla stessa fonte.   

 

Verificabilità

È relativa alla necessità che una procedura preveda anche le istruzioni volte a definire i metodi, gli strumenti e le informazioni che consentono di controllare l’applicazione.

 

Coerenza (coherence)

Questo concetto è connesso all’utilizzo di più fonti  relative ad uno stesso fenomeno ed in particolare per informazioni prodotte con diversa periodicità.   

 

Praticabilità

Definisce il grado di compatibilità delle procedure con il contesto   culturale entro il quale devono essere applicate 

 

Completezza

Si tratta di una caratteristica trasversale ai singoli processi e consiste nella capacità di questi integrarsi per fornire un quadro informativo soddisfacente del dominio di interesse. 

 


Data integration is a process by which several
databases, which associated local schemas, are in-
tegrated to form a single virtual database with an as-
sociated global schema.

 

Riferimenti :

Software utilizzato   : TOS talend open studio (open source)

Personale tecnico    : Team tecnico professionale

Email : info@italsystems.it

 

Articoli correlati :

Integrazione di dati di ambienti informatici eterogenei (etl - data integration)

 

   

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

.
.
>