Le Big Data n’impose pas de tout rebâtir (Partie 2)

Pas de Big Bang dans le Big Data. On l’a vu il y a quelques semaines, le Big Data n’oblige pas une refonte des infrastructures déjà en place. Sur le plan matériel, des dispositifs de collecte, organisation, stockage et analyse s’intègrent dans l’infrastructure en place ; sur un plan logiciel, les offres nouvelles pour se brancher sur les flux hétérogènes sont apparues. Le plus souvent, ces dernières constituent une base suffisante.

En revanche, un projet de Big Data implique une architecture adéquate à la récupération des données et leur analyse. Car l’objectif est bien de rendre la donnée et l’information compréhensibles, utilisables et accessibles à tous dans l’entreprise.

Les différents départements doivent pouvoir travailler de manière transversale les uns avec les autres afin de tirer parti de la donnée, la faire circuler, la valoriser…Une démarche, somme toute, assez nouvelle. Certaines études rapportent que 50% des données collectées ne sont pas utilisées, alors si un projet Big Data permettait de s’attaquer à cette matière déjà existante ?

Changement de processus internes dans l’entreprise

Par exemple, l’un des objets d’un projet Big Data peut porter sur l’étude et l’analyse des habitudes de navigation des internautes, comme cela peut être le cas pour des nombreuses entreprises ayant monté des sites web en BtoC ou de sites de mise en relation de particuliers. Quelles pages consultées, quels produits cliqués, quel cheminement d’un produit à la commande, quels temps d’attente, quels avis déposés par ce même client sur le site… l’entreprise peut ainsi mieux cibler ses actions marketing et commerciales et tirer parti des données inexploitées jusque-là car trop complexes.

Comme indiqué plus haut, de telles analyses nécessitent une collaboration étroite entre le marketing, les commerciaux et tous les autres départements avec l’informatique comme pierre angulaire de cette organisation. Cette transformation des processus internes de l’entreprise s’accompagnera d’une évolution des modes de construction des entrepôts de données, voire des méthodes de gestion de projets et des architectures techniques. Les perspectives de développement sont quasiment illimitées puisqu’elles dépendent désormais de la capacité de l’entreprise à imaginer de nouvelles combinaisons. Un autre exemple où ces sources commencent à être analysées et exploitées : les assurances. Les réseaux sociaux en effet servent de plus en plus à vérifier les déclarations des assurés.

Comment mettre en place un projet Big Data ?

Comment s’y prendre ? C’est finalement là toute la question. Quand on parle de Big Data, on adresse les données dites «non structurées», issues de tout type de source (web, images, vidéos, réseaux sociaux etc…). La gestion de ces types de données doit se faire via des outils appropriés pour mettre en place l’architecture adéquate à la récupération des données et leur analyse. Tout d’abord, les mémoires dynamiques, citons la DRAM ou la mémoire Flash, qui permettent d’augmenter les capacités de stockage sans détériorer les temps de réponse des requêtes. Ensuite, les solutions basées sur NoSQL permettant de traiter les données non relationnelles. Ces données non structurées sont captées à partir de fichiers distribués Hadoop contenant également un système de fichiers distribués (HDFS) qui permet de stocker les données sur plusieurs serveurs, avec parallélisations des accès et résistance aux pannes.

Le module MapReduce d’Hadoop permet de faire face à l’arrivée de gros volumes de données en spécifiant une fonction Map et une fonction Reduce.
Tout le reste est pris en compte par le framework MapReduce.
En cas de panne, Hadoop gère la reprise automatique du traitement en le limitant aux serveurs survivants.
Cet outil comprend donc un éventail de fonctionnalités étendues, de puissance et de résistance aux pannes qui en font un moyen largement utilisé parmi les grands noms du Web : Google, Amazon, Groupon.

Un exemple de mise en place

Chez SCC, nous travaillons avec plusieurs fournisseurs capables d’apporter une solution Big Data. La vidéo de la semaine dernière EMC Isilon en est un exemple.
Un autre exemple est de tirer parti des Big Data avec Oracle. Elle s’appuie sur l’existant, et sur la base de donnée Oracle 11g, combinée à une appliance Big Data, qui intègre à la fois matériel optimisé et pile logicielle pour gérer les données. La solution permet d’acquérir, d’organiser et charger les données Big Data, dans une base Oracle 11g. Couplé à un Exadata, qui fait office parfait de serveur de base de données, le tout en Infiniband, les résultats sont impressionnants. Oracle a d’ailleurs développé des extensions pour l’utilisation d’Hadoop avec Oracle Data Integrator (ODI) (Hadoop Knowledge Module). Pour les clients utilisant déjà Hadoop, l’acquisition d’Oracle Big Data Appliance n’est pas obligatoire. Des techniques alternatives sont disponibles pour charger des données extraites d’Hadoop dans une base Oracle cible. Quoiqu’il en soit, par rapport à cette architecture complète, un projet Big Data peut se mener sur un temps très court avec une enveloppe financière très limitée…

About The Author

SCC

Leave a reply

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Recevez par mail les articles et actualités de Au coeur des InfrasJe m'inscris à la Newsletter