La qualité des données et le Big Data (3/4) - Qualité, encore et encore

La qualité des données et le Big Data (3/4) – Qualité, encore et encore

Fondamentaux, Gouvernance de l'information, information governance, Innovation
Xavier Henderson

La qualité des données appliquée au big data

Elle va englober les thèmes suivants

La qualité de données classique
L’extension aux nouveaux types de données et aux domaines de l’information
Le mélange des différents types de données
La dimension temporelle, temps réel , voire mutante de certaines données. Par exemple le sabir « djeun » évolue très vite et certaines expressions supplantent d’autres rapidement. YOLO !

Les données transactionnelles auxquelles nous sommes habituées

La démarche qualité de données est celle que nous connaissons.

Les informations d’entreprise auxquelles nous sommes habituées

Il s’agit de tous les fichiers word, xls, pdf, emails, modèles de donnes etc. Ce domaine comprend aussi l’ECM (Enterprise Content Management), la GED, les glossaires, les « records », les documents juridiques, les données web.

Nous ne connaissons pas de travaux permettant de définir et encore moins d’évaluer la qualité de ces informations. Du moins avant la percée des big data. Cette absence révèle soit la cohabitation en silo des mondes des données auxquelles appartiennent applications et la majorité des systèmes informatiques et les mondes de l’information auxquelles appartiennent taxinomies, libraires et gestion documentaires. Soit elle révèle que le big data est vraiment le big data et pas le big information auquel cas le traitement des données peu ou non structurées tombe dans un zone floue à cheval entre le mondes des données et le monde des informations. Ce qui nous amène au paragraphe suivant.

Les nouveaux types de données

Ce sont les données semi structurées et non structurées. Les données semi structurées comprennent les logs web, machine et autres xml. Les données non structurées comprennent

les informations : la structure n’est pas au niveau des données mais dans l’assemblage, la grammaire, le sabir local, les figures de style. Par exemple, la richesse de « A la recherche du temps perdu » est due à l’auteur plus qu’à la richesse du vocabulaire employé.
Les videos, les images et les bandes audio

Pour chaque type, de nouvelles techniques sont nécessaires.

Le mélange des genres

De nouvelles techniques sont nécessaires pour mener à bien la qualité de données de différents types.

La volatilité de certaines données big data

Certaines techniques sont connues. Toutefois les contraintes sont particulièrement fortes

Les exécuter en temps réel
Faire face à des format qui sont susceptibles d’évoluer

De nouvelles approches peuvent s’avérer nécessaire pour tenir compte de ces contraintes.

Récapitulatif des articles de la série sur le big data et qualité des données :

Parallélisme entre profilage des données et le big data
Les exigences supplémentaires du big data
La qualité des données appliquée au big data
Les conditions de succès

Le sujet vous intéresse, vous souhaitez le travailler avec une approche globale et transverse, venez nous retrouver dans le groupe Associer le Big Data et la Gouvernance de l’information de la communauté GouvInfo. Grégory Maubon et moi même vous attendons !