Le Post Infeeny

Les articles des consultants et experts Infeeny

Newsletter Data Experience – Mai 2017

Bonjour à tous et bienvenue dans ce nouveau rendez-vous mensuel censé vous apporter un résumé des nouveautés techniques de la Data Platform.

Certes, comme à son habitude, Microsoft nous sert une mise à jour de Power BI avec son lot de nouvelles fonctionnalités avec dans les grandes lignes : Lire la suite

Power BI : nouvelle offre, nouvelle tarification !

A partir du 1er Juin 2017, la tarification de Power BI évolue

Nous avons désormais 3 offres:

  • Power BI Free
  • Power BI Pro
  • Power Premium

Lire la suite

Power BI Desktop – dealing with time intelligence

As you know or not, in Power BI Desktop, you can’t mark a table as a ‘date table’ like in Excel Power Pivot. So how could you properly deal with time intelligence functions ? Lire la suite

SQL Server – les columnstore index à la rescousse de la BI

Petit retour d’expérience sur l’usage des CCSI (Clustered Column Store Index) avec SQL Server 2014.

Avec un de nos clients, nous avons fait quelques bench sur le sujet. Sur une architecture équivalente, nous avons mis en place un index columnstore sur une table de fait contenant plus de 300 millions d’enregistrements. Malgré me dires et ceux de Microsoft, mes interlocuteurs étaient très sceptiques tout en fondant de grands espoirs. Lire la suite

#Datazen – Overview

Datazen est une solution de BI Mobile cross-platforme (iOS, Windows, Androïd) utilisée pour créer, partager, visualiser et commenter des dashboards sur tous vos terminaux.

Cette solution n’est pas nouvelle, connue depuis 2002 sous le nom de Component Art, elle a été rebrandée en Datazen en 2013 puis rachetée par Microsoft en avril 2015.

Elle se positionne comme une solution de BI Agile On-Premise, permettant de compléter l’offre de la stack MSBI face à la concurrence (notamment Tableau et Qlik).

Lire la suite

#PASSBAC 2015 – Paco Gonzalez – Social Listening, Data Extraction and Discovery

Le cycle de vie du social analytic est le suivant :

SocialListeningLifecycle

Pour démarrer, regardez du côté du APIs

  • Facebook : informations personnelles, volume, historique, requêtage
  • Twitter : informations personnelles, volume, historique, requêtage
  • Amazone : requêtage, données produit, évaluation

La source favorite pour débuter est Twitter car il s’agit d’une source publique, balisée (@, #, RT) et structurée (tous les tweets ont une longueur maximale de 140 caractères, sont émis par un utilisateur à un emplacement donné.

Pour récupérer plus d’informations sur les réseaux sociaux ou créer vos propres connecteurs aller sur GNIP ou Microsoft Azure App Services

Paco enchaîne ensuite par la première partie de sa démo relative à la collecte et au stockage des données; via un simple exe .Net. Les tweets émis en temps réel sont stockés sur un cluter Hadoop en HBase.

Les données sont ensuite affichées sur une carto permettant d’afficher le volume de tweets émis relatifs à un sujet en fonction de leur tonalité (négatif, neutre, positif).

Pour aller plus loin, la seconde démo doit permettre de croiser les données de ventes d’une société avec les données issues des réseaux sociaux (en l’occurrence twitter). Le dataset récupéré contient l’ensemble des tweets relatifs à la dite société.

Les challenges du Sentiment Analysis concerne l’interprétation des messages postés afin d’en déterminer le ton, il s’agit alors de comprendre

  • le ton de la phrase
  • et son contexte

Pour effectuer cette opération, il est possible de commencer par la définition d’un dictionnaire. Il suffit ensuite de parser les tweets et d’identifier les différents mots par rapports à ceux contenus dans le dictionnaire. Le mieux étant d’utiliser un dictionnaire existant, pour cela vous pouvez vous baser sur SentiWordNet.

L’inconvénient de cette technique étant qu’elle ne tient pas compte ni du ton de la phrase ni de son contexte mais uniquement des mots utilisés. Cela permet, néanmoins, de se faire une première idée approximative.

Pour aller plus loin, il est possible de faire appel au Machine Learning pour identifier si la tonalité d’un message peut être déterminée par l’association/la combinaison de mots. Pour mettre en place le modèle et s’assurer de la tonalité, on prend un extrait d’1,6 millions de tweets contenant des emoticons. Une fois le modèle ML entraîné via cet échantillon, c’est l’ensemble de nos tweets qui sont évalués. Le dataset est ensuite récupéré et exposé dans un cube Analysis Services permettant alors d’analyser le volume les ventes de produit en fonction de leur couleur et de leur zone géographique et de croiser cette information avec l’analyse sentimentale des tweets.

A travers cet exemple simple, il est possible d’obtenir une analyse comportementale des ventes par zone géographique et facilite donc la prise de décisions quant aux actions à mener.

N’oubliez-pas Microsoft Azure Machine Learning est toujours gratuit alors profitez-en.

Pour plus d’infos allez jeter un œil sur http://www.youtube.com/channel/UCkOKmMW_LEsACOqE8C1RWdw

Présentation très intéressante qui permet d’entrevoir l’intérêt des entreprises à se mettre au Big Data.

#PASSBAC 2015 – Andrew Brust – Using Hadoop with Excel and Power Query

Andrew débute la première partie de sa session en présentant Hadoop.

On parle de Big Data lorsque le volume de données dépasse les centaines de To et va jusqu’au Po ou plus. Il s’agit de données transactionnelles énormes issues en grande partie : des données financières, de logs de site web, des réseaux sociaux, des objets connectés (IoT), des données mobiles, etc. Pour pouvoir traiter et analyser ces données, un système monolytique ne suffit plus, il est nécessaire d’adopter une architecture scalable afin de pouvoir effectuer des traitements en parallèle au travers différents serveurs en cluster. C’est le principe même d’Hadoop.

Les concepts principaux à connaître sur Hadoop sont

  1. HDFS : Hadoop distributed files system : c’est le système de fichiers qui détermine où et comment les données sont distribuées et stockées sur le cluster. Les données sont répliquées sur les différents nœuds du cluster, ce qui permet :
  • d’avoir une architecture haute disponibilité (si un nœud tombe => aucune perte de données)

Distributed File System : on where data gets distributed over commodity drives on commodity servers

  • de pouvoir effectuer des traitements en parallèle
  • d’ajouter simplement de la puissance de calcul en ajoutant de nouveaux nœuds au cluster (scale-out)
  1. Map Reduce : c’est l’opération qui permet de parser l’ensemble des données en parallèle pour n’extraire que celles dont vous avez besoin. Cette opération se décline en deux temps :
  • Map step : les données sont parsées en parallèle sur l’ensemble des nœuds du cluster
  • Reduce step : retourne toutes les données associé à la même clé et les agrège

Ces opérations se font en java.

  1. Schema-on-Read : lorsque vous traiter des données non structurées, le schéma est imposé lors de la requête et dépend du contexte par exemple :
  • Si vous scanner un livre, les valeurs à retournées sont-elles les mots, les lignes, les pages, les chapitres ?
  • Est-ce que la date et l’heure sont deux champs séparés ou bien un seul …

Pig et Hive sont les deux outils qui permettront d’effectuer cette interprétation de schéma à la volée.

Andrew continue ensuite par la présentation de la stack Hadoop V1 puis V2. Je ne m’attarderai quant à moi qu’à la V2.

HadoopStack

Je complète juste par quelques annotations sur les éléments les plus marquants de cette stack :

  • HDFS : Hadoop Distributed File System
  • YARN : ressource governor
  • HBASE : base de données avec stockage en colonne
  • Hive et Pig : couche d’abstraction permettant de faire du Map Reduce
  • SCOOP : utiliser pour l’import/export RDBMS bidirectionnel
  • Sparl SQL, Impala et Tez permettent de faire du SQL interactif
  • Lucine et SolR sont des moteurs de recherche
  • Sparl MLib et Mahout : permettent de faire du machine learning/ Data Mining
  • Spark Streaming, Storm et Kafka : sont utilisés pour le Streaming Data

Les différentes distributions d’Hadoop sont Cloudera, Hortonworks HDP, MapR, IBM InfoSphere, Pivotal HD et Microsoft HDInsight. Elles utilisent toutes le même noyau Hadoop décrit précédemment.

Microsoft HDInsight a été développé avec Hortonworks et permet d’avoir une distribution HDP sous Windows. Les spécificités de cette distribution sont :

  • Windows Azure HDInsight
  • Azure Blobs Storage
  • L’accessibilité via du PowerShell et des cmdlets HDInsights
  • Une interface web permettant d’exécuter des requêtes Hive et de monitorer des jobs

S’en vient alors les démos :

  • Mise en place du cluster sous Azure
    • Création d’un cluster HDInight via le portail MS Azure => cela se fait en quelques clics, en configurant soit même le type de plateforme souhaitée (nombre de nœud dans le cluster, la région, le type de vm (core CPU + mémoire), un username, l’accès en RDP, le stockage). Le cluster Hadoop est créé et accessible quelques minutes
    • Connexion au cluster HDP via l’interface Azure
    • Utilisation de la console HDIngith Query Console vous permettant d’exécuter des requêtes Hive
    • Revue des solutions proposées avec ou sans sample data)
  • Hadoop commands (cf. slide pris en photo sur tel)
  • Connexion au cluster hadoop en rdp via la console Azure,
    • ouverture d’une fenêtre de command hadoop et quelques exemples de commandes Hadoop
    • Création d’un job executant une requête hive
  • Récupération de données HDP via Excel
    • Via le driver ODBC
  • Pig est un combo entre un requêteur et un ETL, il permet de travailler avec des données structurées et non structurées. Andrew nous livre quelques exemples de requêtes Pig.
  • Démo Power Query sur une source de données HDFS
  • Power Bi 2.0
    • Pas de dépendance avec Office 365
    • Moins cher : freemium model, Pro version pour $10/user/month
    • Across platform experience (iOS, Android, Windows)
  • Démo Power BI Designer
    • Connexion à HD Insight via Power Query, quelques transformations, puis passage en mode reporting/dahsboarding sur Power BI Site
  • Démo Tableau
    • Connexion à HD Insight et exécution de la même requête
    • Travail sur les mêmes données….

Andrew n’a pas eu le temps de faire d’autre démo avec d’autres outils comme Qlik Sense ou Jaspersoft, peu importe, quel que soit l’outil utilisé, les données Hadoop sont très facilement utilisables et exploitables.

Il ne vous reste plus qu’à aller sur le site d’Hortonworks pour aller télécharger la sandbox et jouer avec. Ou bien aller directement sur Azure.

#PASSBAC 2015 – Teresa Palmer Boroski – Instant dashboard for your critical business

Teresa nous montre les forces de Power BI au travers un panel de démo permettant d’éprouver :

  • La richesse des connecteurs Power BI
    • Exemple de dashboard sur Dynamics CRM, sur Google Analytics (un nouveau né) et Salesforce puis revue des autres connecteurs Excel workbook Power BI Designer File, Analysis Services, GitHub, Marketo, Dynamics Marketing, Salesforce, SendGrid et ZenDesk
  • La simplicité d’utilisation de l’outil
    • Au cours des différentes démos, nous avons pu voir :
      • Comment créer une connexion à une source de données
      • Comment créer un dataset
      • Comment créer des rapports
      • Comment créer des dashboards
      • Comment ajouter des éléments sur un dahboard issus de différents datasets
      • Comment rafraîchir les données (soit par l’intermédiaire d’une planification, soit à la demande)
      • Comment modifier l’apparence de son dashboard en disposant et en redimensionnant les éléments à la volée
      • L’utilisation du Q&A

Pour résumer cette session :

  • Les forces de l’outil :
    • De nombreux connecteurs
    • Permet aux utilisateurs de se connecter à leurs données sans savoir une plateforme analytique dédiée
    • La grande simplicité d’utilisation de l’outil
    • Richesse des graphes
    • Des mises à jour tous les mois
  • Les faiblesses sont quant à elles pointées par l’audience
    • Pas d’encapsulation possible sur un autre portail Web ou dans une application comme Dynamics
    • Pas d’autorefresh à l’ouverture, par conséquent, le rapport partagé expose les dernières données rafraîchies avec les credentials enregistrés au niveau des data sources et non ceux de l’utilisateur connecté
    • Pas de possibilité de passer des paramètres dans l’url
    • Pas de mode déconnecté
    • Pas de push mail, ni de data alerting

Il faut donc se tourner vers le support pour indiquer les fonctionnalités que vous voulez voir implémenter et se tenir au courant de celles délivrées chaque mois.

#PASSBAC 2015 – Jen Underwood – Best Practice Mobile Dashboard Design

Des décisions cruciales doivent être prises à tout moment, partout et sur n’importe quel appareil. Fournir des réponses immédiates à vos utilisateurs quand ils en ont le plus besoin peut se révéler être un véritable défi. Quand on sait que plus de 80% des employés utilisent déjà des appareils mobiles aussi bien dans leur cadre personnel que professionnel, il est désormais crucial de fournir à vos employés les informations nécessaires pour prendre les bonnes décisions au bon moment.

Dans cette session, Jen (http://www.jenunderwood.com) nous initie aux considérations à prendre en compte pour la mise en en œuvre d’un BYOD et nous fournis un ensemble de démos intéressantes sur Power BI et Datazen.

Quels sont les challenges de la BI mobile ?

  • Les différentes tailles d’écran des terminaux
  • Le manque de clavier physique
  • La navigation tactile

Quelles sont les questions à se poser ?

  • Quelles actions doivent être prises ?
  • Comment les utilisateurs vont utiliser les dashboards ?
  • Quels sont les terminaux qui seront utilisés pour visualiser les dashboards ?
  • Est-ce que les utilisateurs peuvent voir les évolutions, les tendances ou bien faire des comparaisons rapides ?
  • Est-ce que les utilisateurs peuvent personnaliser les dashboards pour recevoir/emmettre des alertes contextuelles ou proactives ?

Quelles sont les bonnes pratiques ?

  • Repensez le besoin, n’apporter que l’information essentielle
  • Concevez l’information afin qu’elle puisse être affichée sur les plus petits écrans
  • Adoptez une visualisation en mosaïque du haut vers le bas Créez des templates par terminaux
  • Utilisez des palettes de couleurs réduites
  • Vérifiez la disponibilité des polices sur vos différents terminaux (les tailles de polices les plus utilisées sont 9,12 et 15)
  • Utilisez des noms et des formats de données courts
  • Mettre en places des « one top actions » pour partager rapidement l’information (email, twitter, facebook, etc.)

La data visualisation est essentielle

  • Quelles significations ont les couleurs et les icones ?
  • N’oubliez pas de prendre en compte les daltoniens => faites un tour sur http://colorlab.wickline.org/colorblind/colorlab/
  • Le contexte social, l’identité, la motivation et la langue sont autant de facteurs à ne pas négliger.

Les erreurs de visualisation les plus communes :

  • L’utilisation de graphes camembert ou en 3-D modifie la perception de l’information
  • Trop d’informations affichées
  • L’utilisation de pattern de remplissage
  • Des axes inconsistants, un mauvais tri ou un mauvais placement
  • L’utilisation du count vs %

Il faut donc rester sobre, succinct, et ordonner l’affichage des données en fonction de leur priorité en choisissant le graphe le plus adapté en fonction de l’information à véhiculer.

Jen passe ensuite de la théorie à la mise en pratique par quelques démos effectuées sur Datazen avec une utilisation multi plateforme (sur PC sous win 8.1, sur IPad  et sur IPhone). La prise en main du Datazen Designer est simple et montre la capacité du produit à concevoir un même dashboard sur différents devices (PC, tablette, smartphone), définir des templates, de définir et d’utiliser ces propres maps, etc. Un produit qu’il faudra prendre en main rapidement, d’autant plus, qu’il est gratuit pour tous ceux possédant une licence SQL Server 2008 Enterprise et plus, avec ou sans software assurance.

Jen passe ensuite aux démos Power BI, toujours en Public Preview. A ce sujet, entre les sessions, j’ai pu discuter avec Kasper De Jongue afin d’avoir une éventuelle date de release de Power BI (Et oui, pour ma part je n’ai jamais connu de client partir sur une preview sauf pour des POCs, en règle générale ils attendent plutôt le SP1). Kasper m’a alors répondu que Google était resté en preview pendant plus de 10 ans sans que cela ne gêne personne. Il faudra donc faire avec et convaincre nos clients de la maturité du produit tout en jouant sur les update packs qui sont délivrés tous les mois et qui sont loin d’être des mises à jour correctives :

  • Apparition du Power BI Designer
  • Apparition de nouveaux connecteurs ces derniers mois Salesforce, Dynamics, SAP BO, Google Analytics,…
  • De nouveaux graphes (treemap, funnel chart, filled map, cluseterd combo, gauge) et de nouvelles fonctionnalités (gestion des relations many-to-many dans Power Pivot, de nouvelles transformations Power Query)
  • La possibilité de piloter Power BI via l’API
  • Un mode de licensing agressif par rapport à la concurrence

Je suis pour ma part plutôt convaincu par Power BI, mais il reste encore quelques points clés comme

  • avoir la main sur les palettes de couleurs
  • pouvoir embarquer des rapports/dashboards Power View dans Dynamics ou bien sur un portail SSRS natif ou bien n’importe quel site .Net par l’intermédiaire d’un viewer
  • la gestion des credentials pour certaines sources de données
  • permettre un mode déconnecté
  • intégrer SSRS, car pour l’instant c’est le seul qui sache faire du reporting opérationnel, une diffusion en masse pilotée par les données, et du data alerting

Merci à Jen pour cette session très enrichissante.

 

#PASSBAC 2015 – retour sur les 2 keynotes

Lors de la première Keynote animée par Carlo Ratti, professeur au MIT et architecte, Carlo nous a sensibilisé sur le fait que le volume de données que nous générons aujourd’hui est en constante progression. Le volume de données produit depuis le début de l’humanité jusqu’en 2003 équivaut actuellement au volume généré en 2 jours. La démultiplication et la démocratisation des terminaux et objets connectés font que chacune de nos actions est désormais numérisée. Il est désormais possible, grâce aux solutions de Big Data, de tirer parti de cette manne gigantesque d’information.

« Big Data is what you cannot put in an Excel spreadsheet »

Carlo nous a montré les résultats des études menées avec son équipe autour de différents projets :

  • l’activité des téléphones mobiles à Rome lors de la finale France/Italie de la coupe de monde de football de 2006
  • utilisation des cartes de crédit en Espagne pendant la période de noël
  • utilisation des données gps des taxis à Lisbonne
  • pattern des déplacements en Italie de touristes américains vs italiens
  • etc.

Je vous conseille fortement de visiter le site du Senseable City Lab; les vidéos sont vraiment impressionnantes et permettent d’entrevoir ce qu’il est possible de collecter et d’analyser, afin de mieux comprendre notre monde et de pouvoir adapter nos comportements en conséquence (ou pas). Les champs d’application sont énormes et uniquement limités à notre propre imagination.

La Keynote d’aujourd’hui a été animée par Miko Yuk,  fondatrice de BI Brainz, entreprise leader dans le dataviz et le story telling. Miko part du constat que la plupart des entreprises ont une organisation décisionnelle en silo (IT Pros, Analysts, Data Scientists), tout en narrant ses retours d’expérience qui sonnent comme un écho dans ma tête.Vous avez beau avoir travaillé des heures ou des jours durant sur un dashboard; au final l’utilisateur s’intéressera en premier lieu à la forme et non aux données.

La BI est présente dans la plupart des sociétés, l’année dernière on estime que 97 milliards de dollars ont été dépensés en BI. Néanmoins, les utilisateurs sont loin d’adopter massivement les solutions qui leur sont proposées, en moyenne, on ne capte que 21% des utilisateurs.

« Data visualisation and visual story telling are the future of useful and intelligent analytics »

La façon de présenter et de scénariser la donnée est primordiale afin de capter l’ensemble de nos utilisateurs et doit répondre aux deux principaux aspects suivants:

  • communicate knowledge
  • interpret experiences

La data visualisation et le story telling sont les facteurs clés qui vous permettront de communiquer l’information de la façon la plus efficiente. A travers les exemples exposés par Miko, j’ai pu noter quelques outils à regarder de plus prêt :  , .

Ces deux keynotes sont dans la mouvance actuelle du big data et de la data visualisation. Ce sont ces deux points clés qui permette(nt)(ront) aux entreprises de se démarquer et d’être plus réactives vis-à-vis de leurs clients et de la concurrence.

Fred.