Le Post Infeeny

Les articles des consultants et experts Infeeny

[PASS Summit 2013] Building an effective Data Warehouse Architecture

Speaker : James Serra – BI Consultant, SolidQ

Niveau de la session : 100

1. What à DWH is not :

  • une copie de la base source avec un préfixe « DW »,
  • une copie de plusieurs tables issues de différentes sources unies dans une vue,
  • un amas de données non structurés,

2. Why DWH ?

  • diminuer la charge sur le système de production,
  • optimiser l’accès en lecture et les scans disque séquentiels,
  • intégrer plusieurs sources de données,
  • constituer un historique de données,
  • restructurer et renommer les tables et les champs,
  • assurer la qualité de données,
  • garantir l’unicité de la donnée,

 3. Fast Track Data Warehouse :

  • Configuration matérielle optimisée pour le data warehousing. Elle permet d’éviter de perdre des mois de configuration, installation, test et optimisation,
  • Plusieurs appliances sont proposées dans ce contexte chez IBM, HP, DELL,
  • Le Fast Track est actuellement en version 4.0,

4. Kimball and Inmon methodologies :

  • 2 approches pour construire un data warehouse,
  • Kimball est une approche en top down orientée métier. Elle repose sur :

– un modèle dimensionnel en 2 tiers (datamart, cube) simple pour les utilisateurs finaux mais dérangeante pour les IT habitués au modèle relationnel,
– un schéma en étoile (dimensions, faits),
– des clés métiers (surrogate key),
– l’architecture : source oltp – staging – DWH – cube – rapports,

  • Inmon est une approche dans laquelle le data warehouse est construit iterativement. Elle repose sur un modèle relationnel en 3 tiers (DWH, datamart, cube) familier aux IT et sur des clés naturelles. Les utilisateurs finaux y ont une participation passive. L’architecture est : source oltp – staging – DWH – plusieurs datamarts – plusieurs cubes – rapports,
  • la méthodologie Inmon est suivie dans 39% des entreprises alors que 26% d’entre elles optent pour Kimball,
  • aucun modèle n’est mieux qu’un autre (ils sont même complémentaires) et aucun des 2 ne doit être appliqué en totalité –> il faut adapter à son cas, ses besoins, son infrastructure,

5. Populating a data warehouse :

  • déterminer la fréquence de mise à jour (quotidien, hebdomadaire, etc.),
  • full extraction pour les dimensions,
  • incremental extraction pour les faits,
  • pour détecter les données qui ont changé dans la source : timestamp – last update, Change Data Capture, partitionnement par date, triggers sur les tables, MERGE SQL, colonne DEFAULT value populated with date,

6. ETL vs ELT :

  • ELT : à faire en cas de grosse volumétrie à condition que la source et la cible soit dans la même base. L’intégration de données se fait via la tâche SQL (et non en Data Flow Task comme en ETL),

7. Architecture DWH possible et optimisée :

Sources – staging – DQS – MDS – DWH – cube – rapports – SharePoint,

Conclusion :

Session intéressante qui permet de (re)découvrir la base de mise en place dune solution décisionnelle performante. Bon overview des modèles de Kimball et Inmon (différences, pratiques de modélisation). Session théorique menée par un speaker très pédagogue.

Ismaïl Ben Lamine

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :