Mon compte Je m'abonne
logo Fiches pratiques

Qu'est-ce que le Big Data ?

Publié par La rédaction le | Mis à jour le
Qu'est-ce que le Big Data ?
© greenbutterfly - stock.adobe.com

Big data : un terme qui nous est tous familier mais que signifie t'il vraiment ?

Big Data : de la technologies aux usages

" Big Data ", voici un grand mot qui circule parmi l'opinion publique actuelle, avec de plus en plus de vigueur mais toujours autant de mystère et d'incertitude. Dans le grand virage de la transformation digitale, les données ont basculé de la carence à l'abondance : leur quantité dépasse la capacité des moyens de stockage classiques et leur forme casse la norme des structures usuelles. Devant ce déluge, le besoin d'évoluer vers de nouveaux moyens de traitement de la data était inéluctable. L'appellation " Big Data " vit le jour pour décrire cette évolution, regroupant les outils informatiques, les techniques d'analyse et la philosophie algorithmique qui accompagne l'ensemble.

Les 3 " V "

Le Big Data vient relever trois défis imposés par l'analyse de données massives : Volume, Vitesse et Variété. Le premier défi est surmonté grâce aux architectures de stockage distribuées qui permettent de gérer des grandes quantités de données. Le deuxième défi est purement algorithmique. Si l'on dispose de grandes quantités de données, la durée des traitements n'en sera que proportionnelle. Grâce à la parallélisation des calculs, nous sommes capables de traiter, à haute fréquence, des requêtes conséquentes. Enfin, le Big Data, de par sa vocation, rassemble tous types de données, avec toute l'hétérogénéité qu'elles peuvent avoir. Très souvent, les projets s'appuient sur la multiplication des sources en les combinant dans l'optique d'augmenter la quantité d'information. L'une des contrepartie à cela est la grande disparité de format des données qui nécessite un travail d'intégration de la part des équipes de Data Engineers afin de fournir aux Data Analystes des données exploitables.

Data Wharehouse et DataLake

Historiquement, les applications BI s'appuyaient sur les DataWarehouses (Entrepôts de donnée), des architectures construites pour entreposer des données de manière extrêmement organisée. Les architectures spécialisées pour des traitements Big Data prennent le contrepied de ces dernières en se basant sur une nouvelle structure appelée DataLake (Lac de donnée). Très instinctivement, les deux modèles d'architecture se différencient : un lac de données contiendra des données peu ordonnées et uniformisées là où l'entrepôt de données contiendra des données très ordonnées et uniformisées.
Malgré ces différences, les deux structures ne sont pas à opposer et sont même souvent utilisées conjointement. Les données brutes sont déversées dans un datalake pour être mise à disposition des datascientists, mais sont aussi extraites et transformées pour être entreposées dans un datawarehouse à des fins de reporting et d'applications Business.

Le big Data : un panel d'applications créatrices de Valeur

Il est impossible de parler des usages du Big Data sans les lier à l'IA. Ces nouveaux concepts d'apprentissage automatique comme le deep learning s'entraînent sur d'énormes quantités de données pour en capter les tendances les plus subtiles. C'est par cela que s'unissent Big Data et Deep Learning. Les nombreux usages trouvent alors naturellement leur application dans quasiment tous les secteurs et apportent souvent une plus value substantielle. Plus spécifiquement, en marketing, le Big Data améliore la connaissance client offrant une expérience client enrichie à travers l'analyse des données.

Les moteurs de recommandations bénéficient eux aussi du big data et permettent de cerner les goûts des clients individuellement et de manière extrêmement précise. La prédiction de la saisonnalité, du churn et des KPIs de ce type ont aussi connu d'importants gains de performance grâce à l'exploitation des données permise par le Big Data, apportant aux acteurs une capacité à prédire de mieux en mieux leurs résultats.


LIMITATIONS, RISQUES ET ÉTHIQUE

Malgré tous les aspects positifs et la valeur apportée par le Big Data, il convient d'être conscient de ses limites et de certains risques quant à la perte d'indépendance que le contexte peut entraîner. En effet, les coûts de stockage et de puissance de calculs liés à de tels volumes de données étant élevés, la grande majorité des entreprises s'oriente aujourd'hui vers la location d'espaces de stockage et d'unités de calcul dans les clouds. Le risque d'une telle centralisation entraîne naturellement une dépendance forte et une perte d'autonomie quant à la gouvernance des données. De plus, il convient aussi de souligner qu'avec l'apparition des DataLake, la tendance est à la captation du maximum de données possible sans même connaître le besoin réel. Un tel comportement soulève des inquiétudes de plus en plus présentes dans le débat public notamment en ce qui concerne les données personnelles. Enfin, la prise en compte de la dimension écologique s'impose comme une des principales préoccupations et pourrait amener non seulement un renversement de l'opinion publique mais aussi les gouvernements à légiférer sur l'utilisation des datacenters dans un futur proche.

Perspectives

Les risques soulevés constituent un défi de taille pour qui souhaite s'investir dans le Big Data mais ils peuvent aussi être la source dans laquelle nous trouverons les solutions. S'amuser à faire des pronostics sur les évolutions à venir dans ce domaine reste risqué, mais si nous devions tenter une prédiction sur l'avenir technique du Big Data, nous dirions que celui-ci réside dans la génération des données par IA ainsi que dans le transfert Learning. La génération de données nous dispense des contraintes de stockage des données dans le sens où l'IA génératrice sera capable de créer des données artificielles jetables en tous points semblables à des données réelles. Quant au transfert learning, qui repose sur la transmission de savoir entre IA, il permettrait de se libérer de la contrainte des grandes quantités de données jusqu'à présent nécessaire pour leur entraînement. Ces deux technologies n'en sont encore qu'à leur balbutiement mais les recherches dans ce sens, nombreuses et en très forte augmentation, nous poussent à croire que ces tendances tendent à se confirmer dans l'avenir.

Auteur

Cette réponse vous a été apportée par l'équipe Data Science, Velvet Consulting, membre du Turing Club

Références