• Les Big Data au service des entreprises (2/3) – Des défis
  • Les 5 défis du Big Data
  • Les disciplines de gouvernance autour de l’information
  • La qualité des données et le Big Data (3/4) – Qualité, encore et encore
  • Infographie sur la gouvernance de l’information
  • Les fondamentaux de la gouvernance de l’information : ce qui se fait en 2012
  • La qualité des données et le Big Data (4/4) – Conditions de succès
  • BYOD et gouvernance de l’information : des dangers
  • L’utilisateur adulte face à l’information
  • BYOD et gouvernance de l’information : que faire ?
  • Politiques et référentiels de la gouvernance de l’information
  • Les Big Data au service des entreprises (3/3) – Gouvernance
  • La DSI est-elle le moteur des innovations métiers ?
  • Des normes et des standards autour de la gouvernance de l’information
  • BYOD et gouvernance de l’information : des atouts
  • Observatoire GouvInfo 2012
  • Le futur proche de la gouvernance de l’information
  • Connaissance et gouvernance de l’information
  • L’information est un organisme vivant
  • Les métiers sont-ils les moteurs de l’innovation de la DSI ?
  • La transformation numérique dans les grands groupes financiers
  • Les Big Data au service des entreprises (1/3) – Retour aux sources
  • L’atelier interactif GouvInfo sur le flux Information : un vrai succès et une suite !
  • L’atelier interactif GouvInfo sur le flux Information : la préparation
  • La qualité des données et le Big Data (2/4) – Exigences
  • L’instance de gouvernance de l’information, et ses outils
  • Le risque informationnel, une menace ou une opportunité
  • Livre blanc de l’observatoire de la gouvernance de l’information
  • La qualité des données et le Big Data (1/4) – Parallélisme
  • Etude 2012 sur la gouvernance de l’information : Qui a participé ?

La qualité des données et le Big Data (4/4) – Conditions de succès

db_updateLes conditions de succès d’un projet de Big Data

On retrouvera les conditions de succès habituelles relatives aux données et aux informations, notamment à leur mobilité et à leur gouvernance. On y ajoutera celles relatives à la gestion de l’innovation sur les plans conceptuels, techniques, business model et juridique. On enrichira avec celles qui accompagnent la gestion du changement et les aspects plus cognitifs comme la gestion des connaissances, et la gestion d’information.

Restent celles spécifiques au big data.

  1. Affiner l’approche et l’étendre à des triplets (domaine/sous domaine métier, type de données, gamme de données)
  • Exemple de domaine/sous domaine : client/marketing
  • Exemple de type de données : emails, tweet, chat, logs bornes libre-service
  • Exemple de gamme  de données : les email de réclamation. La gamme est plus précise que le type, elle a un aspect opérationnel, elle est pertinente en ce qu’elle doit permettre d’initier des actions concrètes rapidement
  1. Passer en revue les dimensions pour chaque triplet. S’en tenir à un maximum de 6 dimensions. Construire une matrice (triplet, dimension). Par exemple pour un service réclamations client, la dimension temporelle, la fraîcheur des données est très importante. Il faut réagir rapidement.
  2. Pour chaque dimension, déterminer quelques indicateurs – KPI – Moins de 10, et peut être un seul
  3. Pour chaque KPI, déterminer les intervalles de confiance, la technique qui sera employée : est ce que les résultats seront de type min/max ou sommables ? Este ce que j’utilise des logarithmes ou des valeurs brutes ? Déterminer des valeurs par défaut, fixer a priori la fiabilité de certaines sources  etc.
  4. Pour chaque n-uplet (triplet, dimension, KPI, critères de KPI), concevoir un modèle  de corrélation entre plusieurs n-uplet de type n-uplet 1 et n-uplet 2 se renforcent, s’atténuent ou sont indépendants.
    Par exemple, on peut renforcer la validité des informations client en la corrélant avec annotations consignées dans des fiches de réclamations qui jusque-là ont fait partie d’un processus différent. On peut aussi utiliser des informations issues de réseaux sociaux ou d’annuaires en ligne (ils peuvent être accessibles pour certains organismes publics) pour renforcer le degré de confiance dans la fiche client.
    Ces nouvelles sources peuvent aussi compléter nos fiches avec des informations comme fumeur avec un degré de confiance qu’il faudra qualifier.
  5. Déterminer quelques aspects périphériques permettant de faire parler les données. Par exemple, un historique récent ou un récapitulatif de comportement général sur 6 mois ou un an segmenté selon des critères maison de marketing opérationnel . On partira de l’existant avant de le faire évoluer pour tenir compte des nouvelles technologies et des nouvelles sources.
  6. Déterminer des aspects informatiques comme de conserver en mémoire ou non les n-uplets et les données et pour combien de temps. Cela détermine l’architecture du SI et l’infrastructure mise en place ainsi que certaines procédures comme l’archivage ou la purge de données périmées ou juridiquement obsolètes ou dangereuses.
  7. Conserver l’esprit ouvert car s’il est certain que des hypothèses de départ s’avéreront fausses, il est tout aussi certain que les résultats permettront d’identifier en quoi elles sont fausses et donc de les rectifier.
  8. Améliorer l’ensemble des processus de qualité de données tout en faisant évoluer la gouvernance de l’information.

Voici quelques éléments de qualité de données pour Twitter :

  • Le timestamp
  • L’user name
  • Les références à des organisation spécifiques, par exemple « Gouvinfo » dans un tweet
  • Localisation géographique, de domaine, ou logique

Voici quelques éléments de qualité de données pour les données exploitées en provenance de sources instables (capteurs, web) :

  • Source : c’est le premier élément permettant de qualifier les données
  • Destination : quelle application utilise ces données ?
    Connaitre le schéma téléologique permet de comprendre comment interpréter le flux entrant
  • Vitesse de réception : en continu ? combien d’enregistrement par seconde ? ces flux sont-ils stables ou avec des pics ? Les pics sont-ils fréquents ? dans quelle mesure ?
    La connaissance de ces profils permet d’établir des abaques en fonction desquelles étalonner des réponses opérationnelles. Par exemple, si j’ai 1000 alertes 3 fois dans les dix dernières minutes alors je dois réduire la vitesse du train en dessous de 100 kph.

Si on procède par échantillonnage, une bonne pratique des dangers relatifs à l’emploi de statistiques sur des échantillons est indispensable, faute de quoi les contresens sont vite faits.

Pour de nombreuses données, la dimension juridique entre en ligne de compte. Peut –on mettre dans une fiche client des informations publiques mais personnelles comme les préférences culinaires, le sport ou les habitudes comme fumer ?

Récapitulatif des articles de la série sur le big data et qualité des données :

  • Parallélisme entre profilage des données et le big data
  • Les exigences supplémentaires du big data
  • La qualité des données appliquée au big data
  • Les conditions de succès

Le sujet vous intéresse, vous souhaitez le travailler avec une approche globale et transverse, venez nous retrouver dans le groupe Associer le Big Data et la Gouvernance de l’information de la communauté GouvInfo.  Grégory Maubon et moi même vous attendons !

 

TwitterGoogle+FacebookPinterestLinkedInViadeoJamespotEmailBufferDeliciousFriendFeedWordPressShare
  • Tags

    • La qualité des données et le Big Data (4/4) – Conditions de succès
    • La qualité des données et le Big Data (3/4) – Qualité, encore et encore
    • La qualité des données et le Big Data (2/4) – Exigences
    • Les Big Data au service des entreprises (3/3) – Gouvernance
    • La qualité des données et le Big Data (1/4) – Parallélisme
    • Les Big Data au service des entreprises (2/3) – Des défis
    • Les 5 défis du Big Data
    • Les Big Data au service des entreprises (1/3) – Retour aux sources
    • BYOD et gouvernance de l’information : que faire ?
    • BYOD et gouvernance de l’information : des dangers
    • BYOD et gouvernance de l’information : des atouts
    • L’atelier interactif GouvInfo sur le flux Information : un vrai succès et une suite !
    • L’atelier interactif GouvInfo sur le flux Information : la préparation
    • La DSI est-elle le moteur des innovations métiers ?
    • Les métiers sont-ils les moteurs de l’innovation de la DSI ?
    • La transformation numérique dans les grands groupes financiers
    • Connaissance et gouvernance de l’information
    • L’instance de gouvernance de l’information, et ses outils
    • Les fondamentaux de la gouvernance de l’information : ce qui se fait en 2012
    • Politiques et référentiels de la gouvernance de l’information
    • Des normes et des standards autour de la gouvernance de l’information
    • Le futur proche de la gouvernance de l’information
    • Le risque informationnel, une menace ou une opportunité
    • L’utilisateur adulte face à l’information
    • L’information est un organisme vivant
    • Les disciplines de gouvernance autour de l’information
    • Etude 2012 sur la gouvernance de l’information : Qui a participé ?
    • Livre blanc de l’observatoire de la gouvernance de l’information
    • Infographie sur la gouvernance de l’information
    • Observatoire GouvInfo 2012