Le Post Infeeny

Les articles des consultants et experts Infeeny

[PASS SUMMIT 2013] Putting Quality Back Into Youy Data Analysis – an introduction to DQS

Speaker : Michael P. Antonovich – Asst Dir Web Applications Orange County Public Schools

Niveau de la session : 200

Session de base : Objectif est de faire un tour d’horizon sur les fonctionnalités et principes de base de DQS et comprendre comment ça marche et à quoi ça sert concrètement.

Agenda :

  • Why clean Data Matters
  • What is DQS
  • Create your first knowledge base domain manually
  • User knowledge discovery to add domains
  • Use a knowledgebase to cleanse data
  • Questions

 Clean data Matters because :

Bad data à distorts analysis results, bad decision, loss revenue, loss of credibility, loss of customer satisfaction, compliance issues, …

(bref si les analyses décisionnelles sont mauvaises c’est parce que les données le sont aussi : donc nettoyer les quand vous pouvez)

Causes de la mauvaise qualité des données :

  • Users entry errors
  • Data transmissions errors
  • Invalid data dictionary definitions
  • Fusion de données de plusieurs sources (data rules different)
  • Absence de validation dans les appli sources
  • Formats ou style de données multiples
  • Etc.

DQS : 2 produits

  • DQS Server
  • DQS Client

Run DQS de : DQS client app, mds, via SSIS lot (du coup avec SSIS on peut adapter l’utilisation de DQS aux besoins : exemple utilisation de plusieurs dictionnaires de données à la suite pour nettoyer les données)

La session ne parle par la suite que de la partie DQS Client.

DQS client : les étapes

  • Une base de connaissance
  • Data cleansing (utilise une base de connaissance, data scrubing)
  • Matching (identifier les doublons ou pas : pour réduire les erreurs dues aux différences)

Processus associé à DQS :

Construire et maintenir une base de connaissance, créer une projet de qualité des données (pour gestion création/maintenance des données), administrer (gestion des droits, etc.)

Objectifs de la qualité des données :

  • C’est quoi un domaine

Démo : creation db, domain (leading values, normalize string), utilisation de donnees de reference, domain values,

(Ne pas oublier de publier les changements pour les rendre accessibles à tous dans la bd)

Démo : Utilisation de knowledge discovery pour remplir des domains plutôt que de le faire à la main (ex : source Excel), indication des synonymes et des valeurs de référence (leading values), domain rules (en gros tous les onglets de domain mamnagement)

  • Data Cleansing : appliquer une kb a des données :

Créer d’abord un data quality projet

Mapper les colonnes de la source de données et celles du domain (celles de la base de connaissance), visualiser les données (stats et lignes de détail)

On peut exporter les données alors corrigées

  • Matching : indication des causes habituelles des doublons, dépend

Matching rules : prerequisite (si ce n’est pas pareil c’est différent !) , similarité, dépend d’un poids associé aux règles de matching (poids minimum pour matcher), pour le matching : travailler d’abord sur un échantillon réduit des données pour adapter l’algorithme avant de l’appliquer à toutes les données

Demo : création d’une règle de matching (le score de matching ne peut être défini en dessous de 70%), explication des overlaping clusters (1 enregistrement est dans plus d’un groupe), … export final des données

Conclusion :

Ma première session au PASS sur un DQS que je n’ai pas eu encore eu l’occasion de mettre en œuvre sur un projet client.

Bonne session de vulgarisation (niveau très faible pour gagner quelques minutes si vous n’avez jamais ouvert le produit ou il y a longtemps comme moi), tout est dans le titre : introduction (à DQS) après c’est toujours mieux quand on pratique (n’est-ce pas ?)

Pascal Rouzé

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :