La qualité des données et le Big Data (1/4) – Parallélisme

db_statusLa qualité des données fait partie de ces sujets étranges qui paraissent évidents, dont beaucoup sont convaincus, auxquels nous sommes tous confrontés quotidiennement mais dont le résultat pratique est piteux.

Les raisons sont multiples et très humaines, trop humaines. Nous n’abordons pas dans cet article pourquoi il en est ainsi ; le sujet est trop vaste et complexe.

Nous allons plutôt nous attacher à comparer la qualité de données telle qu’elle est comprise et quelquefois appliquée dans les entreprises avec d’une part le big data en tant que tel et d’autre part comment transposer la qualité des données au monde du big data.

Le profilage des données et le big data

Le profilage est la première étape de la qualité de données et consiste à faire un état des lieux. L’approche statistique fait ressortir un ensemble de d’éléments qui permettent de constater sur les données réelles combiens de champs sont renseignés, dans quelle mesure certaines colonnes de tables ont un lien caché ou explicite, quelles sont les plages de valeurs réellement prises, quelles sont les formats réels des données et ainsi de suite.

On examine, on analyse, on synthétise, on modélise on vérifie et on recommence.  C’est le profilage

Plus tard on établira un modèle permettant  de lier ces indicateurs statistiques à des niveaux plus agrégés jusqu’à ce qu’on obtienne un lien de causalité entre des indicateurs métier comme : le taux d‘attrition, le taux de pannes, la durée moyenne de communication, le taux de NPAI, l’efficacité d’une campagne marketing, le taux de recouvrement etc.

L’approche big data initiale est la même que pour le profilage. On récolte, on rapproche des données, on observe et ainsi de suite. On emploi des outils statistiques et en fonction de ce qui est observé on les affine. L’approche guidée par les données est appliquée dans les deux cas. Mais contrairement au big data, le profilage s’attaque à des volumes relativement restreints. Il s’agit de quelques milliers à quelques centaines de millions d’enregistrements.

Les données sont censées être connues car au cœur de l’activité de l’entreprise. La majorité des sources sont internes. Des normes internationales existent pour certaines données de référence : codes Iata, codes postaux, formats de téléphones. Il existe même des fournisseurs de données fiables comme les P&T.

Ce qui distinguera le big data du profilage standard, ce seront les attributs du big data au sens du Gartner :

  • Il y en a beaucoup, beaucoup plus
  • Les données arrivent tout le temps, en grande quantité
  • Les données sont de tous types, de la donnés classique aux documents pdf, logs et chat twitter

Les données n’ont pas toujours tous les attributs mais même la présence ou absence d’un seul  d’entre eux change la donne. En profilage, plus de 80% du travail s’effectue sur des données habituelles, transactionnelles,  données de référence ou métadonnées.

Nous voyons dans l’article suivant ce qu’il faut en plus pour le big data par rapport au profilage.

Récapitulatif des articles de la série sur le big data et qualité des données :

  • Parallélisme entre profilage des données et le big data
  • Les exigences supplémentaires du big data
  • La qualité des données appliquée au big data
  • Les conditions de succès

Le sujet vous intéresse, vous souhaitez le travailler avec une approche globale et transverse, venez nous retrouver dans le groupe Associer le Big Data et la Gouvernance de l’information de la communauté GouvInfo.  Grégory Maubon et moi même vous attendons !

Xavier Henderson

Expertise en DW, BI, MDM, GI, QI, KM, IA, informatique, information et theo de la connaissance

Laisser un commentaire