Select Page

Boom de la data non structurée, faites de la place maintenant

Boom de la data non structurée, faites de la place maintenant

La data non structurée explose et c’est peu dire. Évidemment il y a les réseaux sociaux, en partie la cause du phénomène et le cloud, qui a libéré les usages de l’échange et du stockage de fichiers comme la vidéo, la photo, le son et le pdf. D’ailleurs, les travailleurs français seraient plus consommateurs d’espace de stockage que leurs voisins européens, sans doute peut-être moins bien informés des contingences de stockage et d’archivage  que connaissent leurs entreprises.

Il y a donc certes ce que l’homme produit mais est-ce comparable à ce que les objets connectés et les capteurs produisent ? Sans doute non. Jugez par vous-même : un crashtest automobile de 3 minutes donne à étudier quelques centaines de Go de données. Au nom de la science c’est formidable. Mais la problématique demeure. Et les progrès scientifiques et de R&D que l’on réalise aujourd’hui grâce aux capteurs embarqués sont encore embryonnaires ! Que sauront demain les météorologues, les satellites, les professionnels du transport, les chercheurs et les ingénieurs ?

Si nous n’en connaissons pas le contenu, nous pouvons d’ores et déjà dire qu’ils en sauront ce qu’ils ont pu étudier. Et cela repose au moins en partie sur la possibilité de stocker correctement la donnée et d’y accéder facilement.

Le stockage traditionnel, le maillon faible de la data non structurée

Concrètement, il n’y avait pas jusqu’ici 36 façons de stocker et d’archiver de la donnée intermédiaire et froide. Il y avait la bande magnétique. Très économique certes mais bien peu adaptée aux besoins de l’entreprise en pleine transformation digitale. Si la bande reste un support apprécié pour l’archivage, l’ensemble des données intermédiaires n’exigeant pas de traitement en temps réel ou à forte puissance de calcul est stocké au sein de datacenters traditionnels. Et dont on ne finit plus de dresser la liste de leurs écueils. A commencer par une empreinte de stockage exponentielle et les coûts associés.

Choix cornélien ! L’entreprise digitale ne peut décemment pas faire abstraction du ROI d’un service. On l’oublierait facilement mais l’innovation n’est pas une fin en soi mais le vecteur de nouveaux marchés ou leur consolidation. Qu’une assurance nous offre aujourd’hui la possibilité d’envoyer sur un espace dédié les photos de notre sinistre, c’est bien pour qu’une réponse de principe soit donnée dans des temps records. Le client est satisfait et certainement fidélisé. Mais à raison de 5 photos de 10 méga chacune, multipliées par autant de sociétaires que compte cette assurance, à combien se montera le coût du stockage ? Et quel sera le bénéfice net in fine réalisé ?

Le stockage objet, l’héritier de Reed-Solomon hyper sécurisé

Parce que toutes les études s’accordent à dire qu’à l’horizon 2020, 80 % des données stockées seront de type non structuré, les technologies de stockage continuent d’évoluer pour accompagner cet essor. Le stockage orienté objet est de loin la technologie la plus efficace.

Toutes les solutions de stockage objet disponibles sur le marché sont des solutions de Software Defined Storage, et basées sur l’algorithme Reed-Solomon créé dans les années 60. C’est un algorithme de correction d’erreurs et de redondances de la data, dédié à l’époque au digital video broadcasting puis utilisé pour l’écriture sur cdrom, la transmission par satellites et la transmission des données de type adsl.

Dans les années 2000, il évolue vers des solutions de géo-dispersion de la donnée exploitant les notions d’erasure coding de l’algorithme. A la donnée ainsi découpée en segments sont appliqués un chiffrement (optionnel) puis un algorithme de dispersion et de redondance (de type Reed-Solomon). La donnée est ainsi gardée sur plusieurs éléments de stockage dispersés sur plusieurs sites, pour un niveau de fiabilité et de sécurité particulièrement haut. C’est un peu comme si chaque composant, organe mécanique et équipement d’une voiture était localisé dans un département français différent. De quoi compliquer significativement la tâche des plus mal intentionnés.

Le tupperware de la data intermédiaire et froide

Avec un coût égal et parfois inférieur à la bande, le mode objet présente de nombreux avantages.  Agile, scalable, de haute sécurité grâce à son système de géo-dispersion des segments de la donnée, il est aussi d’une administration très simplifiée.

Les entreprises ayant opté pour le stockage objet il y a 10 ans avec quelques dizaines de teraoctets de données et ayant vécu, comme les autres, la croissance triomphale de la data non structurée, n’en ont pas subi les mêmes conséquences. Damien Buisson, Team Leader IBM Bluemix Cloud et stockage objet en fait le constat : « Nos clients vont bientôt passer à l’exabyte et n’auront pas besoin d’embaucher plus d’administrateurs pour autant ».

Le stockage objet est enfin bien moins gourmand en espace. L’erasure coding s’affranchit des mécanismes de tolérance RAID lors de la copie, découpe, chiffre au besoin, géo-disperse la donnée utile et offre le bénéfice d’une division par trois de l’empreinte de stockage. L’intérêt économique est direct et évident.

Stockage objet, tout est dans le détail

Au demeurant, comment choisir si toutes les solutions sont basées sur le même algorithme ? D’autant qu’on entend souvent dire que l’erasure coding aurait un impact assez lourd sur la CPU. Mythe ou réalité ? Ni l’un ni l’autre, la différence entre les compétiteurs se fera sur la qualité du travail d’optimisation de l’algorithme d’erasure coding.

Par ailleurs, il ne faut pas se tromper et veiller à pointer sa vigilance là où elle est utile. C’est-à-dire sur les cartes réseaux principalement. Les solutions de stockage objet sont sur IP. Aussi tout dépendra de sa volumétrie par machine et des efforts d’études et d’analyse consentis en amont par le prestataire sur l’architecture la plus adaptée. « Quelles applications doivent accéder au stockage objet ? Qu’est-ce qui sera stocké ? Sur combien de sites ? Avec quelle bande passante ? A toutes ces questions, des réponses précises sont indispensables car chacune pourra avoir un impact sur le mécanisme d’erasure coding, dès lors qu’il s’agit d’un dialogue en temps réel. Chez IBM, nous ne vendons aucune architecture qui ne serait pas formellement validée par notre lab » rappelle Damien Buisson.

Enfin, on premise, cloud ou hybride, toutes les sociétés ne sont pas logées à la même enseigne. Pour des contraintes de sécurité, compte tenu d’un règlement européen sur la protection des données nettement plus rigoureux, au regard des règles de conformité financière, beaucoup se tourneront vers des solutions on premise.

Pour d’autres qui souhaiteraient explorer de nouveaux marchés par exemple, la facturation à l’usage du cloud est une solution parfaitement valable, au moins temporairement.

About The Author

SCC

Et si nous parlions métiers ?Rendez-vous sur le blog AucoeurdesMétiers
+