Big-Data

Traitement et analyses de données : Normalisation de données (Quality of Data), Enrichissement de données, Machine Learning…

VINC accompagne ses clients dans l’analyse et le traitement de leurs données de coeur de métier.



Les données collectées par une entreprise sont en général très volumineuses et bien souvent ni traitées, ni exploitées. Pourtant, que ce soit dans le cadre d’une activité d’e-commerçant, dans vos données métiers ou encore vos bases prospects/clients (CRM), un certain nombre d’informations peuvent être collectées, normalisées, enrichies puis analysées afin d’en tirer le meilleur parti : augmenter son taux de transformation dans l’e-commerce, enrichir ses bases de données métiers ou encore classifier ou prédire certaines valeurs ou profils de ses bases commerciales.

Les 3V (Volume, Vitesse et Variété) du Big-Data sont difficiles à appréhender par les entreprises car ils font appel à différentes compétences métiers : techniques, marketing et décisionnelles. Ainsi, VINC peut par exemple intervenir sur des problèmatiques de récupération et de normalisation de données, de consolidation et de stockage de ces mêmes données avant traitement. VINC vous accompagne également dans l’enrichissement de ces données ou encore dans la mise en oeuvre de processus systématiques, complexes et automatisés (Machine learning).

Grâce aux outils et savoir-faire de VINC, nous pouvons répondre à vos problématiques « Big Data » :

  • Normaliser vos données postales, nominatives ou emails ;
  • Enrichir vos données d’entreprises (SIREN, SIRET, coordonnées, …) ;
  • Créer des tableaux de bord temps-réel personnalisés avec indicateurs ;
  • Classifier les profils d’acheteurs de vos clients ou de vos prospects avec le Machine Learning ;
  • Mettre en place des alertes en fonction d’indicateurs.

A titre d’exemple, vous sont détaillées succinctement ci-après les étapes opérées par VINC lorsque nous disposons d’un jeu de données. Bien entendu, chacune de ces étapes s’adapte à l’objectif et/ou au jeu de données fourni par le client.

Récupération des données

Que ce soit avec un ETL (Extract, Transform, Load) comme Logstash ou pETL (Python ETL), ou avec des scripts personnalisés sur mesure, VINC récupére l’ensemble de vos données issues de diverses sources d’informations et les monte en bases SQL, noSQL ou HDFS (Hadoop). La récupération de ces données peut se faire, soit en temps-réel, soit en temps différé.

Par exemple, dans le cadre de son client Ticket-Surf International, VINC récupère depuis plusieurs dizaines de machines, en temps réel, les données log de chacun des applicatifs et du systeme dans un cluster de base NoSQL, totalisant plus de 2,5Go de données par jour.

Normalisation des données

VINC effectue la normalisation de vos données afin d’améliorer la qualité de ces mêmes données (Quality of Data) et de les uniformiser.
Par exemple, dans le cadre de son client NetLEGIS, VINC normalise les données postales des clients de cette dernière et croise ces informations avec un géo-codage des adresses permettant diverses requêtes ou affichages géolocalisés.

Analyse des données

VINC utilise des outils comme R, Python ou d’autres encore spécialisés dans la data visualisation tels que Qlik Sense pour analyser les données ainsi collectées et déterminer les valeurs importantes ou facteurs déterminants dans votre jeu de données.

Consolidation et enrichissement des données

Grâce à la mise en place d’algorithmes en répartition de charges basés sur du map-reduce, VINC agrège et consolide vos données.

Toujours pour son client NetLEGIS, VINC enrichit les données d’entreprises (SIRENisation, SIRETisation, adresse postale, numéro de téléphone,…) des clients de celle-ci pour utilisation ultérieure par les directions commerciale et marketing de NetLEGIS.

Machine learning

Classifications – Supervised learning / Unsupervised learning

A partir d’un jeu de données, identifier des groupes de données ayant les mêmes propriétés (unsupervised learning) ou classifier les données dans des groupes d’ores-et-déjà identifiés (supervised learning).

Par exemple, dans le cadre de l’outil de routage de campagnes d’emails « VINC Campaign », VINC analyse et classifie les emails de retours des serveurs distants pour traiter les NPAI (bounces) de manière fine.

Régressions

Les régressions permettent de faire de la prédiction de valeurs, à partir des valeurs présentes dans votre jeu de données.