La data integration o ETL e' il sistema che consente la sincronizzazione delle base dati di ambienti informatici eterogenei e si articola fondamentalmente nel processo di estrazione dei dati dalle applicazioni, di trasformazione degli stessi e del loro caricamento nelle diverse applicazioni destinatarie.
Ci sono numerosi problemi da affrontare per preparare efficacemente i processi di ETL data integration. Si elencano qui le fasi di una proposta di attuazione .
1) Determinazione degli obiettivi
Come per ogni progetto, la prima fase e' definire chiaramente gli obiettivi che si vogliono raggiungere, e le condizioni di partenza del sistema in cui si opera.
Sinteticamente possono essere questi:
-
Determinare i databases sorgenti da cui estrarre i dati.
-
Determinare i databases target da aggiornare.
-
Determinare le regole di trasformazione dei dati in transito.
-
Determinare il metodo di aggiornamento e di sincronizzazione dei databases destinatari.
-
Determinare i campi da cui prelevare i dati ed quelli in cui riporli.
2) Poc e prototipo
In questa fase preliminare, al fine di determinare meglio le operazioni da svolgere, viene predisposto un POC (proof of concept o prototipo concettuale) con una installazione effettiva sulla base di una check list che preveda alcuni collegamenti immediatamente possibili ed alcuni non possibili. In tal modo si possono valutare i primi vantaggi e svantaggi della soluzione che rappresentano una soluzione in scala ridotta del problema.
3) Sviluppo connettori e personalizzazioni
Si analizzano, si sviluppano e si collaudano i connettori necessari per completare il progetto di data integration.
4) Data quality
La correttezza della traslazione dei dati non è l'unico elemento, purtroppo. E' necessario che i dati sorgente siano sufficientemente puliti. Si rende necessaria quindi una attivita di data quality al fine di avere dati congruenti (ad es.: date fuori range, chiavi errate, dati doppi, dati mancanti, dati sporchi).
5) Quick start program
Con l'elaborazione dell' 80% dei dati si dovrebbero raggiungere l' 80% degli obiettivi.
Questa parte e' proporzionalmente molto meno costosa rispetto al totale perchè, come si sa, la precisione ha un suo costo; inoltre si da per scontato una non necessità di controllo per gran parte dei dati.
6) Determinazione framework di sviluppo
Ora è il momento di definire la stategia globale di sviluppo futuro del progetto . Si devono determinare le linee guida decisionali , definire i protocolli di sviluppo delle procedure di sincronizzazione dati e le attività di gestione dei dati.
7) Pannello gestione sincronizzazioni
Tutto cio' che e' stato definito , le procedure sviluppate e le definizione dei dati vengono gestite da una applicazione di :
-
gestione metadati
-
gestione accessi e licenze
-
gestione risorse
8) Monitor e logging e alerting
Per tenere sotto controllo il tutto viene predisposta una procedura di logging e di gestione del logging stesso. Il cruscotto di controllo funzionerà anche in modo push .
Le condizioni di criticità devono essere sollecitamente sottoposte ai responsabili.
Deve essere presente, per tante ragioni,(problemi, statistiche di lavoro, responsabilità etc.) un insieme di dati di logging che consenta una estesa tracciabilità.
9) Implementazione graduale (data federation)
Data la caratteristica del progetto che per sua natura non ostacola le attività correnti , si può attivare una implementazione graduale, programmata e flessibile della attivazione delle sincronizzazioni e del loro utilizzo concreto accompagnando così la curva di apprendimento del sistema in modo naturale.
10) Manutenzione e Sicurezza
Come in ogni buona soluzione informatica le procedure di sicurezza relative alle copie di salvataggio, del rolling back ed in generale alle operazioni di ripristino a seguito dei più svariati inconvenienti completa l'attivazione dell etl data integration.
Riferimenti :
Software utilizzato : TOS talend open studio (open source)
Personale tecnico : Team tecnico professionale
Email : info@italsystems.it
Pagina web di guida interattiva : in costruzione
Articoli correlati :
Data quality - Qualità del dato
KPI Key performance Indicators