Qualità del dato - Data quality
Garantire la qualità del dato è la nuova frontiera del Data Warehousing. Poter disporre di un dato corretto è fondamentale per prendere le giuste decisioni. Per questo motivo le moderne soluzioni di Data Integration presentano componenti avanzati per la gestione della qualità del dato, che si integrano anche con i sistemi sorgente per evitare a monte l’inserimento di dati errati.
Bisogna curare la completezza del dato. La fornitura dei dati deve essere puntuale e tempestiva. Inoltre i dati devono essere accurati, chiari, coerenti e verificabili. Non ultimo bisogna tenere in conto anche la tutela della riservatezza.
Conversione e riconciliazione dei dati
L'integrazione di dati provenienti da sorgenti eterogenee richiede anche tecniche per la conversione e la riconciliazione dei dati.
La complessità delle conversioni e delle riconciliazioni è dovuta a diversi problemi legati alla eterogeneità delle sorgenti, quali: differenze nella rappresentazione di uno stesso oggetto, possibili errori nella codifica di proprietà di oggetti, possibili discrepanze nelle proprietà attribuite agli oggetti nelle varie sorgenti.
Sebbene esistano diverse tecniche e strumenti ad hoc, utilizzati specialmente nelle realizzazioni di data warehouse, solo recentemente il
problema della conversione e riconciliazione dei dati è stato affrontato con metodi rigorosi e scientifici .
Data Cleansing:
Il data cleansing è tipicamente una parte delle attività di Transform dell’ETL. I database sorgenti contengono spesso dati errati o in eccesso. Importare tali dati nel Data Warehouse non solo è inutile ma anche pericoloso in quanto l’idea alla base di un Data Warehouse è di supportare il processo decisionale. Prendere decisioni sulla base di dati errati potrebbe avere conseguenze disastrose per l’azienda. Assicurare la qualità del dato comporta procedure di verifica complesse, quella del Data Cleansing è un area molto vasta dove sono disponibili diverse tecnologie per la pulizia dei dati;
Riferimenti :
Software utilizzato : TOS talend open studio (open source)
Personale tecnico : Team tecnico professionale
Email : info@italsystems.it
Articoli correlati :
Integrazione di dati di ambienti informatici eterogenei (etl - data integration)