Le Post Infeeny

Les articles des consultants et experts Infeeny

#PASSBAC 2015 – Paco Gonzalez – Social Listening, Data Extraction and Discovery

Le cycle de vie du social analytic est le suivant :

SocialListeningLifecycle

Pour démarrer, regardez du côté du APIs

  • Facebook : informations personnelles, volume, historique, requêtage
  • Twitter : informations personnelles, volume, historique, requêtage
  • Amazone : requêtage, données produit, évaluation

La source favorite pour débuter est Twitter car il s’agit d’une source publique, balisée (@, #, RT) et structurée (tous les tweets ont une longueur maximale de 140 caractères, sont émis par un utilisateur à un emplacement donné.

Pour récupérer plus d’informations sur les réseaux sociaux ou créer vos propres connecteurs aller sur GNIP ou Microsoft Azure App Services

Paco enchaîne ensuite par la première partie de sa démo relative à la collecte et au stockage des données; via un simple exe .Net. Les tweets émis en temps réel sont stockés sur un cluter Hadoop en HBase.

Les données sont ensuite affichées sur une carto permettant d’afficher le volume de tweets émis relatifs à un sujet en fonction de leur tonalité (négatif, neutre, positif).

Pour aller plus loin, la seconde démo doit permettre de croiser les données de ventes d’une société avec les données issues des réseaux sociaux (en l’occurrence twitter). Le dataset récupéré contient l’ensemble des tweets relatifs à la dite société.

Les challenges du Sentiment Analysis concerne l’interprétation des messages postés afin d’en déterminer le ton, il s’agit alors de comprendre

  • le ton de la phrase
  • et son contexte

Pour effectuer cette opération, il est possible de commencer par la définition d’un dictionnaire. Il suffit ensuite de parser les tweets et d’identifier les différents mots par rapports à ceux contenus dans le dictionnaire. Le mieux étant d’utiliser un dictionnaire existant, pour cela vous pouvez vous baser sur SentiWordNet.

L’inconvénient de cette technique étant qu’elle ne tient pas compte ni du ton de la phrase ni de son contexte mais uniquement des mots utilisés. Cela permet, néanmoins, de se faire une première idée approximative.

Pour aller plus loin, il est possible de faire appel au Machine Learning pour identifier si la tonalité d’un message peut être déterminée par l’association/la combinaison de mots. Pour mettre en place le modèle et s’assurer de la tonalité, on prend un extrait d’1,6 millions de tweets contenant des emoticons. Une fois le modèle ML entraîné via cet échantillon, c’est l’ensemble de nos tweets qui sont évalués. Le dataset est ensuite récupéré et exposé dans un cube Analysis Services permettant alors d’analyser le volume les ventes de produit en fonction de leur couleur et de leur zone géographique et de croiser cette information avec l’analyse sentimentale des tweets.

A travers cet exemple simple, il est possible d’obtenir une analyse comportementale des ventes par zone géographique et facilite donc la prise de décisions quant aux actions à mener.

N’oubliez-pas Microsoft Azure Machine Learning est toujours gratuit alors profitez-en.

Pour plus d’infos allez jeter un œil sur http://www.youtube.com/channel/UCkOKmMW_LEsACOqE8C1RWdw

Présentation très intéressante qui permet d’entrevoir l’intérêt des entreprises à se mettre au Big Data.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :