La qualité des données et le Big Data (4/4) - Conditions de succès

La qualité des données et le Big Data (4/4) – Conditions de succès

Fondamentaux, Gouvernance de l'information, information governance, Innovation
Xavier Henderson

Les conditions de succès d’un projet de Big Data

On retrouvera les conditions de succès habituelles relatives aux données et aux informations, notamment à leur mobilité et à leur gouvernance. On y ajoutera celles relatives à la gestion de l’innovation sur les plans conceptuels, techniques, business model et juridique. On enrichira avec celles qui accompagnent la gestion du changement et les aspects plus cognitifs comme la gestion des connaissances, et la gestion d’information.

Restent celles spécifiques au big data.

Affiner l’approche et l’étendre à des triplets (domaine/sous domaine métier, type de données, gamme de données)

Exemple de domaine/sous domaine : client/marketing
Exemple de type de données : emails, tweet, chat, logs bornes libre-service
Exemple de gamme de données : les email de réclamation. La gamme est plus précise que le type, elle a un aspect opérationnel, elle est pertinente en ce qu’elle doit permettre d’initier des actions concrètes rapidement

Passer en revue les dimensions pour chaque triplet. S’en tenir à un maximum de 6 dimensions. Construire une matrice (triplet, dimension). Par exemple pour un service réclamations client, la dimension temporelle, la fraîcheur des données est très importante. Il faut réagir rapidement.
Pour chaque dimension, déterminer quelques indicateurs – KPI – Moins de 10, et peut être un seul
Pour chaque KPI, déterminer les intervalles de confiance, la technique qui sera employée : est ce que les résultats seront de type min/max ou sommables ? Este ce que j’utilise des logarithmes ou des valeurs brutes ? Déterminer des valeurs par défaut, fixer a priori la fiabilité de certaines sources etc.
Pour chaque n-uplet (triplet, dimension, KPI, critères de KPI), concevoir un modèle de corrélation entre plusieurs n-uplet de type n-uplet 1 et n-uplet 2 se renforcent, s’atténuent ou sont indépendants.
Par exemple, on peut renforcer la validité des informations client en la corrélant avec annotations consignées dans des fiches de réclamations qui jusque-là ont fait partie d’un processus différent. On peut aussi utiliser des informations issues de réseaux sociaux ou d’annuaires en ligne (ils peuvent être accessibles pour certains organismes publics) pour renforcer le degré de confiance dans la fiche client.
Ces nouvelles sources peuvent aussi compléter nos fiches avec des informations comme fumeur avec un degré de confiance qu’il faudra qualifier.
Déterminer quelques aspects périphériques permettant de faire parler les données. Par exemple, un historique récent ou un récapitulatif de comportement général sur 6 mois ou un an segmenté selon des critères maison de marketing opérationnel . On partira de l’existant avant de le faire évoluer pour tenir compte des nouvelles technologies et des nouvelles sources.
Déterminer des aspects informatiques comme de conserver en mémoire ou non les n-uplets et les données et pour combien de temps. Cela détermine l’architecture du SI et l’infrastructure mise en place ainsi que certaines procédures comme l’archivage ou la purge de données périmées ou juridiquement obsolètes ou dangereuses.
Conserver l’esprit ouvert car s’il est certain que des hypothèses de départ s’avéreront fausses, il est tout aussi certain que les résultats permettront d’identifier en quoi elles sont fausses et donc de les rectifier.
Améliorer l’ensemble des processus de qualité de données tout en faisant évoluer la gouvernance de l’information.

Voici quelques éléments de qualité de données pour Twitter :

Le timestamp
L’user name
Les références à des organisation spécifiques, par exemple « Gouvinfo » dans un tweet
Localisation géographique, de domaine, ou logique

Voici quelques éléments de qualité de données pour les données exploitées en provenance de sources instables (capteurs, web) :

Source : c’est le premier élément permettant de qualifier les données
Destination : quelle application utilise ces données ?
Connaitre le schéma téléologique permet de comprendre comment interpréter le flux entrant
Vitesse de réception : en continu ? combien d’enregistrement par seconde ? ces flux sont-ils stables ou avec des pics ? Les pics sont-ils fréquents ? dans quelle mesure ?
La connaissance de ces profils permet d’établir des abaques en fonction desquelles étalonner des réponses opérationnelles. Par exemple, si j’ai 1000 alertes 3 fois dans les dix dernières minutes alors je dois réduire la vitesse du train en dessous de 100 kph.

Si on procède par échantillonnage, une bonne pratique des dangers relatifs à l’emploi de statistiques sur des échantillons est indispensable, faute de quoi les contresens sont vite faits.

Pour de nombreuses données, la dimension juridique entre en ligne de compte. Peut –on mettre dans une fiche client des informations publiques mais personnelles comme les préférences culinaires, le sport ou les habitudes comme fumer ?

Récapitulatif des articles de la série sur le big data et qualité des données :

Parallélisme entre profilage des données et le big data
Les exigences supplémentaires du big data
La qualité des données appliquée au big data
Les conditions de succès

Le sujet vous intéresse, vous souhaitez le travailler avec une approche globale et transverse, venez nous retrouver dans le groupe Associer le Big Data et la Gouvernance de l’information de la communauté GouvInfo. Grégory Maubon et moi même vous attendons !