lundi 21 mai 2012

Une définition du Big Data : ce qui se cache derrière le mot !

Dernier buzzword à la mode, on l'entend et le lit partout, dans les conférences, sur le web, dans les études spécialisées et annonces commerciales des éditeurs... au point ou il a été classé mot le plus confus de la décennie ! Dernier joujou de l'industrie de la BI, le Big Data est désormais le phénomène à la mode ! Pour peu qu'on s'entende sur sa définition !
Utilisé pour évoquer l'explosion des données qui caractérise la nouvelle ère technologique dans laquelle nous sommes entrés ! et la difficulté des entreprises qui y font face à les gérer. Le succès du terme le fait très vite adopter par la communauté et au delà... les analystes en font un sujet d'études, les services marketing des éditeurs un buzzword pour promouvoir leurs produit. Au final, tout le monde utilise le même mot mais chacun l'emploi dans un sens différent et l’ambiguïté du terme y est pour quelque chose.

Le premier sens qui vient à l'esprit en lisant le terme "Big Data" est un volume gigantesque de données. Mais cela reflète-il tous les enjeux et opportunités auxquelles font face les organisations en matière de données ? en partie seulement.

Parmi les premières personnes ayant réfléchi à la question, bien avant l'apparition du terme "Big Data", Doug Laney, analyste chez Méta Group (aujourd'hui racheté par Gartner) qui a publié en 2001 une étude mettant l'accent sur 3 dimensions qui feraient bousculer le data management à l'avenir :

Volume : le volume de plus en plus croissant de données générées.

Variété : la prolifération de nouveaux formats de données hétérogènes structurées ou non-structurées (texte, images, musique, vidéo...)

Vitesse : la nécessité de traiter les données de plus en plus vite avant qu'elles ne soient périmées.

10 ans plus tard, ces trois critères renommés en "3V" (marketing oblige) semblent faire le consensus chez les analystes pour définir ce qu'est le Big Data. Pour ma part, je préfère le considérer comme étant simplement les défis et opportunités auxquelles font face les organisations en matière de gestion de données. Cela inclut le volume, la variété et la vitesse avec plus ou moins de pertinence selon l'organisation, mais ne se limite pas forcément à cela.

Une chose est sûre, cela dépasse la simple dimension du volume.

Big Data, un concept relatif dans le temps et dans l'espace


Le critères des 3V cerne bien la nature des défis liés aux traitement et analyse des données mais ne permet pas de définir les contours du Big Data. A partir de quand peut-on considérer qu'un dataset comme Big Data ? à partir d'un certain nombre de tera, peta-octets ? dans les mesure ou il contient un certain format de données : documents, musique, vidéo ?

Le premier disque dur inventé par IBM sur demande de l'US Air Force avait une capacité de 5 Mo soit 100 000 fois moins que les plus petits des disques fabriqués encore à ce jour. De même que l'ordinateur le plus basique d'aujourd'hui possède plus de puissance de calcul que les ordinateurs ayants servis à envoyer le premier homme sur la lune.

Cet exemple illustre la relativité du Big Data, la technologie avance dans le temps et ce qu'on qualifie de Big Data évolue en conséquence. Cela diffère également d'un secteur à un autre, d'une entreprise à une autre. Un dataset qui peut être un défi à traiter et analyser pour une entreprise peut être une bagatelle pour une autre.

Si l'on devait donner une définition formelle au Big Data, je choisirais celle-ci :

Le Big Data fait référence à un dataset qui par son volume, sa variété ou sa vélocité, dépasse la capacité de son entreprise à le stocker, traiter ou analyser avec les moyens classiques dont elle dispose. 



Aucun commentaire:

Enregistrer un commentaire