jeudi 29 mars 2012

Petite histoire sur la qualité de données

Selon vous, lequel de ces aliments contient le plus de fer ?
  • Haricots
  • Lentilles
  • Epinards


Réponse : j'entend déja dire les épinards... et non ce n'est pas le cas, ce sont d'ailleurs ceux qui en contiennent le moins. En effet, contrairement à une idée reçue, les épinards contiennent que très peu de fer.
Qui d'entre-nous n'a pas entendu dans son enfance "Mange tes épinards si tu veux devenir aussi fort que Popeye" ; croyant en en mangeant, devenir aussi fort que le célèbre marin aux avants-bras en forme d'enclumes, qui après avoir avalé une boite de conserve du légume magique qu'il broie d'une seule main pour ouvrir, acquiert une force surhumaine à l'instar d'Asterix et sa potion magique.

Imposture

A l'origine de cette légende sur le fer et les épinards, une faute de frappe. La secrétaire d'un chercheur américain qui avait autopsié une feuille d'épinard en 1890 aurait commise une faute de frappe au niveau des décimales à la ligne fer, lui attribuant ainsi 10 fois sa teneur réelle. Des scientifiques allemands corrigèrent le tir dans les années 30 mais c'était trop tard. La réputation des épinards était faite, et ce mythe s'est ancré dur comme fer dans la mémoire collective, encouragé par les dessinateurs de Betty Boops qui en ont fait la potion magique de leur nouveau héros à qui ils donnèrent naissance en 1933 : "Popeye le marin".

Mais quel rapport avec ce blog ?

Et bien cet exemple illustre l'ampleure des conséquences que peut avoir une simple erreure de saisie, même si dans ce cas, elles ne sont pas nécessairement négatives (cette petite pub pour l'épinard a fait augmenté sa consommation de 33% aux états-unis à l'époque) autant de bienfaits pour la santé publique. Bref, un mensonge qu'on resservirait bien à nos enfants pour leur faire manger des légumes.

Mais ce n'est pas toujours le cas, et une erreur de saisie informatique peut avoir des conséquences catastrophiques comme cela a été le cas en 2005 pour le deuxième groupe bancaire japonais Mizuho. Un courtier de cette banque avait placé lors de l'introduction en bourse d'une petite société, 610 000 titres à 1 yen au lieu de 1 titre à 610 000 yens, causant ainsi 280 millions d'euros de perte pour son groupe et la démission du président de la Tokyo Stock Exchange de l'époque. De quoi donner des sueurs froides.

Tout ceci nous renvoi à la question de la qualité des données en entreprise et pour cause, le ROI de tout projet BI en est directement lié. Une étude réalisée par Experian QAS révèle que 81% des organisations dans le monde ont connus au cours des trois dernières années une conséquence négative en raison de problème d'exactitude des données. Parmi les consquénces : affaiblissement de l'image de marque, baisse de l'éstime des clients, perte de clients potentiels et dépenses inutiles (en moyenne 16% des budget seraient ainsi perdus) ou mauvaises décisions de gestion : des informations erronnées sur les produits qui se vendent bien ou mal peuvent amener les entreprises à prendre des décisions qui vont à l'encontre de leur intérêt.

Face au déferlement de données et d'informations sans précédant auquel font face les entreprises aujourd'hui (On estime que davantage d'informations ont été générées pendant ces 30 dernières années que lors des 500 précédantes) des politiques de contrôle et de gestion de la qualité des données s'imposent de plus en plus.

Les raisons de l'inexactitude

59% des personnes intérrogées dans l'étude précédante imputent aux erreurs humaines,  leur manque de confiance dans les données. La première cause de mauvaise qualité des données est les erreurs de saisie de l'information à la source : fautes d'orthographe, codes incorrects, abréviations erronées, saisie dans un mauvais champ... De plus, la saisie des données directement par le client peut amener des valeurs tout à fait aberrantes comme des naissances remontant à IIème siècle.

Autres causes, les doublons et les informations obsolètes (près de 2% des informations clients deviennent obsolètes chaque mois pour cause de divorce, mariage, décès, déménagement ou changement de situation).

D'une démarche artisanale à une approche industrielle

Et même si 87% des organisations évoquent tenter d'une manière ou d'une autre d'assurer la précision de leurs données, elles continuent toutes fois pour la plus part à recourir à des processus manuels de traitement au cas par cas par les utilisateurs eux-même. Or, ces mesures ponctuelles ne peuvent assurer la perrenité d'une telle démarche.

Seules 16% des entreprises déclarent avoir en place un programme de qualité de données, pourtant 90% jugent qu'il est indispensable d'en avoir ! cela peut s'expliquer par l'appréhension de tels projets et la confusion sur leur responsabilité. Pour 60% des spécialistes décisionnel, ce problème n'est pas le leur, ils considèrent que c'est dans les systèmes de production que doivent être identifiées et corrigeés les erreurs. D'ailleurs on ne manque pas d'entendre le célèbre diction anglo-saxon "Garbage in, garbage out" lorsque l'on évoque le sujet.

Lors d'un projet BI sur lequel j'ai été amené à travailler, des erreurs et incohérences dans les données des reportings étaient fréquemment signalées par les utilisateurs au responsable BI qui était mis en cause. Or, ces erreurs étaient persistantes du fait que les données provenaient d'un système de gestion mal conçu qui ne garantissait aucun contrôle sur les données saisie. Cette situation à l'origine de rapport tendus entre le responsable BI et les business analysts a fini par créer un conflit entre le responsable BI et chef de projet du logiciel en question qui ne se sentait pas concerné par le problème.

Du côté des directions métier, le problème est perçu comme strictement "informatique".
Néanmoins la mise en oeuvre de tels projets nécessite des compétences informatiques mais aussi des connaissances propres aux métiers comme la mise en place de règles de gestion pour identifier les incohérences, définir un seuil de tolérance acceptable...

Aucun commentaire:

Enregistrer un commentaire