L’édito de la Lettre blanche n°59 annonçait la mise en route d’une réflexion (un groupe de travail comme nous disons) sur les big data et open data. Un premier éclairage…
Quelques précisions permettront (peut-être) de dissiper la pénombre qui règne dans ces entrepôts de données (datawarehouse in English !)
La notion de big data correspond essentiellement à la profusion de données numériques existantes et exploitables ; elle évoque plutôt l’exploitation de données à des fins commerciales, dans des applications marketing et publicitaires, alors que la notion d’open data correspond assez clairement à la mise à disposition de tous de données issues des services publics et assimilés. Ce qui n’exclut pas qu’une exploitation commerciale ait lieu à partir de ces données. Bien entendu l’open data suppose de disposer de big data ! Et réciproquement…
Cette émergence des data résulte naturellement du développement des TIC, des capacités de stockage quasi infinies et d’outils de traitement très puissants. Par rapport aux traitements de données classiques, le big data apporte deux nouveautés fondamentales, le traitement en temps réel et la quantification de données non structurées.
La définition du big data communément admise par les spécialistes, retient trois points de base : grand volume de données, importante variété de données, vitesse de traitement auxquels s’ajoutent, en option, deux autres « V » valeur ajoutée et véracité.
Dans le domaine du marketing, champ privilégié du big data, trois sources d’approvisionnement en données se complètent et se combinent. Il s’agit de gérer et exploiter les données que l’on possède, que l’on achète et que l’obtient. Ces trois termes correspondent à un acronyme en vogue dans cet univers : le POE, ce qui signifie Paid, Owned, Earned. Le Paid correspond à des données achetées, des fichiers d’adresses par exemple. Le Owned, ce sont principalement les fichiers clients/adhérents et les transactions effectuées avec les membres desdits fichiers. Le Earned est « gagné » sans bourse délier : ce sont par exemple les données récoltées sur les pages de cette entité sur les réseaux sociaux, ou encore d’autres pages…
Les « traces » laissées par nos usages de l’internet constituent une source d’approvisionnement considérable en data Earned ; parmi elles, rappelons les informations collectées par cookies, favoris, paramètres et préférences de navigation, passage sur les réseaux sociaux, consultation des sites des entreprises… Pour l’instant ces données sont reliées au n° IP de la machine connectée. Tous les passages du mobinaute comme ceux de l’internaute peuvent être enregistrés et traités en temps réel…
Comme si les analystes et autres commentateurs étaient dépassés par cet univers, les communications sur ce sujet ne quantifient que très rarement les volumes. En revanche les nombres apparaissent souvent lorsqu’il s’agit de parler des objets connectés. Les estimations les plus fantaisistes circulent quant au nombre d’objets connectés actuels et futurs. Au-delà des smartphones ou des postes de TV, il s’agit d’une multitude de dispositifs personnels et d’outils installés dans les logements ou les voitures…
Le nombre d’objets connectés, estimé actuellement entre dix et vingt milliards dans le monde, fait l’objet de prévisions pour 2020 ou 2030 variant entre 30 et 80 milliards. On notera que ces prévisions, d’origine nord-américaine pour la plupart, sont toujours calculées à l’échelle mondiale.
Lié aux objets connectés, le Quantified Self est, selon Wikipédia, un mouvement qui regroupe les outils, les principes et les méthodes permettant à chaque personne de mesurer ses données personnelles, de les analyser et de les partager. Les outils du Quantified Self peuvent être des capteurs, des applications mobiles ou des applications Web.
En mars 2013, le mouvement Quantified Self en France s’organise autour de MyDataLabs, association centrée sur la donnée personnelle. Les applications médicales sont en première ligne ; le coaching semble également prendre une place importante dans ce domaine. On peut supposer, ou même espérer, que ce mouvement mondial deviendra un pare-feu face aux débordements du marketing et de la publicité.
Trois grands principes fondent l’open data : un format ouvert, la gratuité, la liberté de réutilisation. De fait, l’univers public est présent dans le big data depuis le milieu des années 2000. Les données détenues par les administrations et services publics sont mises à disposition du public dans un souci de transparence et d’une recherche d’une plus grande efficacité de l’action publique. Les compagnies de transport anglo-saxonnes et japonaises ont été les premières à mettre à disposition du public, des données de fonctionnement de leurs services, permettant à des développeurs de proposer des applications mobiles utilisables au fil des déplacements.
Les transports publics et la circulation sont les domaines de prédilection de l’orientation temps réel dans l’open data. Les cabinets de conseils américains rivalisent d’analyses sur les opportunités économiques offertes par l’open data, bien au-delà du transport, à coup de centaines de milliards* de dollars, tant sur le business créé que les économies générées….
Par rapport aux données marketing décrites plus haut, ces données publiques sont dans la plupart des cas structurées et exploitables relativement facilement à condition d’être correctement documentées. Les garde-fous à installer et les précautions à prendre sont toutefois bien différents entre un fichier contenant les horaires annoncés et les temps de parcours réels des trains et celui de l’assurance maladie !
Si la marchandisation des données issues des services publics peut choquer certains, le respect de données individuelles contenues dans des fichiers sensibles revêt sans doute une importance beaucoup plus grande. Le risque de voir les banques, les assurances et les employeurs accéder aux données individuelles de santé n’est pas un mythe….
Alain Tripier
(*) Écrit avant l’ouverture de la pêche aux milliards !
Ndlr : Data, mot anglais signifiant « données ». C’est un pluriel (du latin datum). Certains ont traduit Big data par « données massives » et ce texte pourrait suivre cette convention. Mais Big data étant une révolution, un enjeu, un rêve ou un cauchemar, nous serons rédactionnellement conformistes. Nous écrirons le ou les big data.