La qualité des données et le Big Data (3/4) – Qualité, encore et encore

db_addLa qualité des données appliquée au big data

Elle va englober les thèmes suivants

  • La qualité de données classique
  • L’extension aux nouveaux types de données  et aux domaines de l’information
  • Le mélange des différents types de données
  • La dimension temporelle, temps réel , voire mutante de certaines données. Par exemple le sabir « djeun » évolue très vite et certaines expressions supplantent d’autres rapidement. YOLO !

Les données transactionnelles auxquelles nous sommes habituées

  • La démarche qualité de données est celle que nous connaissons.

Les informations d’entreprise auxquelles nous sommes habituées

  • Il s’agit de tous les fichiers word, xls, pdf, emails, modèles de donnes etc. Ce domaine comprend aussi l’ECM (Enterprise Content Management), la GED, les glossaires, les « records », les documents juridiques, les données web.

Nous ne connaissons pas de travaux permettant de définir et encore moins d’évaluer la qualité de ces informations. Du moins avant la percée des big data. Cette absence révèle soit la cohabitation en silo des mondes des données auxquelles appartiennent applications et la majorité des systèmes informatiques et les mondes de l’information auxquelles appartiennent taxinomies, libraires et gestion documentaires. Soit elle révèle que le big data est vraiment le big data et pas le big information auquel cas le traitement des données peu ou non structurées tombe dans un zone floue à cheval entre le mondes des données et  le monde des informations. Ce qui nous amène au paragraphe suivant.

Les nouveaux types de données

Ce sont les données semi structurées et non structurées. Les données semi structurées comprennent les logs web, machine et autres xml. Les données non structurées comprennent

  • les informations : la structure n’est pas au niveau des données mais dans l’assemblage, la grammaire, le sabir local, les figures de style. Par exemple, la richesse de « A la recherche du temps perdu » est due à l’auteur plus qu’à la richesse du vocabulaire employé.
  • Les videos, les images et les bandes audio

Pour chaque type, de nouvelles techniques sont nécessaires.

Le mélange des genres

De nouvelles techniques sont nécessaires pour mener à bien la qualité de données de différents types.

La volatilité de certaines données big data

Certaines techniques sont connues. Toutefois les contraintes sont particulièrement fortes

  • Les exécuter en temps réel
  • Faire face à des format qui sont susceptibles d’évoluer

De nouvelles approches peuvent s’avérer nécessaire pour tenir compte de ces contraintes.

Récapitulatif des articles de la série sur le big data et qualité des données :

  • Parallélisme entre profilage des données et le big data
  • Les exigences supplémentaires du big data
  • La qualité des données appliquée au big data
  • Les conditions de succès

Le sujet vous intéresse, vous souhaitez le travailler avec une approche globale et transverse, venez nous retrouver dans le groupe Associer le Big Data et la Gouvernance de l’information de la communauté GouvInfo.  Grégory Maubon et moi même vous attendons !

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.