2020-09-16T15:51:03+00:00

Définition : Big Data

mercredi 16 septembre 2020 Yohann G. 10 minutes de lecture Glossaire

Le terme » Big Data » a commencé à apparaître dans les dictionnaires au cours de la dernière décennie, mais le concept lui-même existe au moins depuis la Seconde Guerre mondiale. Plus récemment, la connectivité sans fil, l’internet 2.0 et d’autres technologies ont fait de la gestion et de l’analyse des ensembles de données volumineux une réalité pour nous tous.

Par « Big Data », on entend des ensembles de données trop vastes et trop complexes pour les applications traditionnelles de traitement et de gestion des données. Les données volumineuses sont devenues plus populaires avec l’avènement de la technologie mobile et de l’Internet des objets, car les gens produisaient de plus en plus de données avec leurs appareils. Prenons par exemple les données générées par les services de géolocalisation, les historiques de navigation sur le web, l’activité des médias sociaux ou même les applications de fitness.

Le terme peut également désigner les processus de collecte et d’analyse de quantités massives d’informations numériques pour produire de l’intelligence économique. Alors que les ensembles de données continuent à se développer et que les applications produisent davantage de données en temps réel et en continu, les entreprises se tournent vers le cloud pour stocker, gérer et analyser leurs grosses données.

Sommaire de l'article

Qu’est-ce qui rend les Big Data si importantes ?

Les consommateurs vivent dans un monde numérique où l’attente est instantanée. Des transactions de vente numériques aux retours d’information et aux perfectionnements du marketing, tout évolue rapidement dans le monde des affaires actuel basé sur le cloud. Toutes ces transactions rapides produisent et compilent des données à un rythme tout aussi rapide. La mise à profit de ces informations en temps réel fait souvent la différence entre la capitalisation des informations pour une vue à 360 degrés du public cible, ou la perte de clients au profit de concurrents qui le font.

Les possibilités (et les pièges potentiels) de la gestion et de l’utilisation des opérations de données sont infinies. Voici quelques-unes des principales façons dont les données volumineuses peuvent transformer une organisation :

Intelligence économique : Conçue pour décrire l’ingestion, l’analyse et l’application de données importantes au profit d’une organisation, l’intelligence économique est une arme essentielle dans la lutte pour le marché moderne. En cartographiant et en prédisant l’activité et les points de défi, l’intelligence économique met les grandes données d’une organisation au service de son produit…

Innovation : En analysant une vue au niveau du périscope de la myriade d’interactions, de modèles et d’anomalies qui se produisent au sein d’une industrie et d’un marché, les données importantes sont utilisées pour mettre sur le marché des produits et des outils nouveaux et créatifs.

Imaginez que la société ‘X’ passe en revue ses Big Data et découvre que par temps chaud, le produit B se vend à un taux proche du double du produit A dans le sud de la France, alors que les ventes restent constantes au nord ou à l’est de la France. La société ‘X’ pourrait développer un outil de marketing qui pousse les campagnes de médias sociaux qui ciblent les marchés du du sud de la France avec une publicité unique soulignant la popularité et la disponibilité instantanée du Produit B. De cette façon, la société ‘X’ peut mettre ses Big Data au service de produits nouveaux ou personnalisés et de publicités qui maximisent le potentiel de profit..

Réduction du coût de la propriété : Si un centime économisé est un centime gagné, alors les big data permettent de gagner beaucoup de centimes. Les professionnels de l’informatique mesurent les opérations non pas en fonction du prix des équipements, mais de divers facteurs, notamment les contrats annuels, les licences et les frais généraux de personnel.

Les informations obtenues grâce aux big datas peuvent rapidement permettre de déterminer où les ressources sont sous-utilisées et quels sont les domaines qui nécessitent une plus grande attention. Ensemble, ces informations permettent aux gestionnaires de maintenir des budgets suffisamment souples pour fonctionner dans un environnement moderne.

Dans presque tous les secteurs, les organisations et les marques utilisent des big data pour innover. Les compagnies maritimes s’en servent pour calculer les temps de transit et fixer les tarifs. Les données de grande taille constituent l’épine dorsale de la recherche scientifique et médicale révolutionnaire, car elles permettent d’analyser et d’étudier à un rythme jamais atteint auparavant. Et elles ont un impact sur notre mode de vie quotidien.

Analytics, Data Centers et Data lakes

Les Big Data concernent en fait de nouveaux cas d’utilisation et de nouvelles idées, et non pas tant les données elles-mêmes. L’analyse des Big Datas consiste à examiner de très grands ensembles de données granulaires afin de découvrir des modèles cachés, des corrélations inconnues, des tendances du marché, des préférences des clients et de nouvelles idées commerciales. Les gens peuvent maintenant poser des questions qui n’étaient pas possibles auparavant avec un entrepôt de données traditionnel, car il ne pouvait stocker que des données agrégées.

Imaginez un instant que vous regardez un tableau de la Joconde et que vous ne voyez que de gros pixels. C’est la vue que vous avez des clients dans un data center. Afin d’obtenir une vue fine de vos clients, vous devez stocker des données fines, granulaires et de niveau nanométrique sur ces clients et utiliser des analyses de données importantes comme l’exploration de données ou l’apprentissage automatique pour voir le portrait fin.

Les Data lakes sont un dépôt de stockage central qui contient des données importantes provenant de nombreuses sources dans un format brut et granulaire. Il peut stocker des données structurées, semi-structurées ou non structurées, ce qui signifie que les données peuvent être conservées dans un format plus flexible pour une utilisation future. Lors du stockage des données, un Data lake les associe à des identificateurs et à des balises de métadonnées pour une récupération plus rapide. Les scientifiques peuvent accéder aux données, les préparer et les analyser plus rapidement et avec plus de précision grâce aux Data lakes. Pour les experts en analyse, ce vaste réservoir de données – disponible dans divers formats non traditionnels – offre une occasion unique d’accéder aux données pour divers cas d’utilisation, comme l’analyse des sentiments ou la détection de la fraude.

Des outils communs pour des données peu communes

Pour comprendre tout ce qui précède, il faut commencer par les bases. Dans le cas de Big Data, il s’agit généralement de Hadoop, MapReduce et Spark, trois offres du projet Apache Software.

A lire également Définition HTTP (Hyper Text Transfer Protocol)

Hadoop est une solution logicielle à source ouverte conçue pour travailler avec des Big Datas. Les outils de Hadoop permettent de répartir la charge de traitement nécessaire pour traiter des ensembles de Big Data sur quelques ou quelques centaines de milliers de nœuds de calcul séparés. Au lieu de déplacer un pétaoctet de données vers un minuscule site de traitement, Hadoop fait l’inverse, accélérant considérablement la vitesse à laquelle les ensembles d’informations peuvent être traités.

MapReduce, comme son nom l’indique, aide à remplir deux fonctions : compiler et organiser (cartographier) des ensembles de données, puis les affiner en ensembles plus petits et organisés utilisés pour répondre à des tâches ou des requêtes.

Spark est également un projet open source de la fondation Apache, il s’agit d’un cadre distribué ultra-rapide pour le traitement à grande échelle et l’apprentissage machine. Le moteur de traitement de Spark peut fonctionner comme une installation autonome, un service de cloud computing, ou n’importe où les systèmes informatiques distribués populaires comme Kubernetes ou le prédécesseur de Spark, Apache Hadoop, fonctionnent déjà.

Ces outils et d’autres d’Apache sont parmi les moyens les plus fiables de mettre à profit des données volumineuses dans votre organisation.

Les futurs usages des Big Data

Avec l’explosion des technologies de l’informatique dématérialisée, la nécessité de se battre contre une masse de données toujours plus importante est devenue une considération de premier plan pour la conception d’une architecture numérique. Dans un monde où les transactions, l’inventaire et même l’infrastructure informatique peuvent exister dans un état purement virtuel, une bonne approche des Big Datas crée une vue d’ensemble globale en ingérant des données provenant de nombreuses sources, notamment :

Journaux des réseaux virtuels
Événements et modèles de sécurité
Modèles de trafic sur le réseau mondial
Détection et résolution des anomalies
Informations sur la conformité
Suivi du comportement et des préférences des clients
Données de géolocalisation
Données des canaux sociaux pour le suivi des sentiments des marques
Niveaux d’inventaire et suivi des expéditions
Autres données spécifiques qui ont un impact sur votre organisation

Même l’analyse la plus conservatrice des grandes tendances en matière de données indique une réduction continue des infrastructures physiques sur site et une dépendance croissante à l’égard des technologies virtuelles. Cette évolution s’accompagnera d’une dépendance croissante à l’égard d’outils et de partenaires capables de gérer un monde où les machines sont remplacées par des bits et des octets qui les émulent.

Les données volumineuses ne sont pas seulement une partie importante de l’avenir, elles peuvent être l’avenir lui-même. La manière dont les entreprises, les organisations et les professionnels de l’informatique qui les soutiennent abordent leurs missions continuera d’être façonnée par l’évolution de la manière dont nous stockons, déplaçons et comprenons les données.

Les Big Datas, le cloud et l’informatique sans serveur

Avant l’introduction des plates-formes dans le nuage, tout le traitement et la gestion des Big Datas se faisaient sur place. L’introduction de plates-formes basées sur le cloud telles que Microsoft Azure, Amazon AWS et Google BigQuery permet désormais (et c’est avantageux) d’effectuer les processus de gestion des données à distance.

Le cloud computing sur une architecture sans serveur offre une série d’avantages aux entreprises et aux organisations, notamment :

Efficacité – La couche de stockage et la couche de calcul sont toutes deux découplées, vous payez aussi longtemps que vous conservez la quantité de données dans la couche de stockage et pour le temps qu’il faut pour faire le calcul nécessaire.

Réduction du temps de mise en œuvre – Contrairement au déploiement d’un cluster géré qui prend des heures, voire des jours, l’application de données volumineuses sans serveur ne prend que quelques minutes.

Tolérance aux pannes et disponibilité – Par défaut, l’architecture sans serveur qui est gérée par un fournisseur de services en nuage offre une tolérance aux pannes, une disponibilité basée sur un accord de niveau de service (SLA). Il n’est donc pas nécessaire de faire appel à un administrateur.

Facilité de mise à l’échelle et mise à l’échelle automatique – Des règles définies de mise à l’échelle automatique permettent de faire évoluer l’application en fonction de la charge de travail. Cela permet de réduire considérablement le coût du traitement.

Choisir un outil pour le Big Data

Les grands outils d’intégration des données peuvent simplifier considérablement ce processus. Les caractéristiques que vous devez rechercher dans un outil pour la gestion des big datas sont les suivantes :

Beaucoup de connecteurs : il existe de nombreux systèmes et applications dans le monde. Plus votre grand outil d’intégration de données dispose de connecteurs pré-conçus, plus votre équipe gagnera du temps.

Open-source : les architectures open-source offrent généralement plus de flexibilité tout en évitant le verrouillage des fournisseurs ; de plus, le grand écosystème de données est constitué de technologies open-source que vous voudriez utiliser et adopter.

Portabilité : il est important, alors que les entreprises adoptent de plus en plus des modèles de cloud hybride, de pouvoir construire vos grandes intégrations de données une seule fois et de les exécuter n’importe où : sur site, hybride et dans le cloud.

Facilité d’utilisation : les outils d’intégration de données volumineuses doivent être faciles à apprendre et à utiliser avec une interface graphique afin de simplifier la visualisation de vos pipelines de données volumineux.

Transparence des prix : votre fournisseur d’outils d’intégration de données ne doit pas vous reprocher d’augmenter le nombre de connecteurs ou les volumes de données.

Compatibilité avec le cloud : votre outil d’intégration de données doit fonctionner en mode natif dans un environnement de cloud unique, multi-cloud ou hybride, pouvoir fonctionner dans des conteneurs et utiliser l’informatique sans serveur pour minimiser le coût de votre traitement de données volumineuses et payer uniquement ce que vous utilisez et non des serveurs inactifs.

Qualité et gouvernance des données intégrées : les données volumineuses proviennent généralement du monde extérieur et les données pertinentes doivent être conservées et gérées avant d’être communiquées aux utilisateurs professionnels, faute de quoi elles pourraient devenir une énorme responsabilité pour l’entreprise. Lorsque vous choisissez un outil ou une plateforme de données volumineuses, assurez-vous qu’il intègre la qualité et la gouvernance des données.

À propos
Articles récents

Yohann G.

Auteur passionné et polyvalent, contribuant régulièrement à E.s news. Avec un œil aiguisé pour les détails et une plume captivante, il couvre de nombreux sujets allant du business à l'actualité, en passant par les dernières avancées technologiques dans le domaine de l'I.A | Contacter l'auteur

Les derniers articles par Yohann G. (tout voir)