datamining

Définition Data Mining  

À l’heure où tout se sache, le Data Mining peut être un levier de croissance pour une entreprise. De nombreuses marques ont appuyé leur stratégie marketing sur cette branche des sciences des données. Représentant plus que des statistiques, Le Big data analytics est à l’origine des meilleures prédictions. Cet article vous explique tout.

Le Data Mining ou forage des données

Avant de rentrer dans le vif du sujet, ce serait peut-être parler de terminologie. L’expression Data Mining peut être traduite par forage de données. Cette version française s’approche du sens anglais, mais reste peu claire. En effet, il s’agit plus d’analyse de blocs d’informations extraits de silos de renseignements. La personne qui pratique ce métier ressemblerait davantage à un savant en blouse blanche qu’à un mineur barbouillé de charbon.

Applicable dans tous les domaines, le Data Mining n’est pas uniquement réservé aux informaticiens et aux responsables marketing. Tout le monde peut apprendre à analyser les données brutes, à les transformer en informations utiles. Il est aussi possible de dresser des tendances, voire établir des règles ou patterns. Les entreprises sont ainsi nombreuses à explorer les compilations de datas pour en tirer des conclusions et en faire un moyen pour booster leur chiffre d’affaires.

Un ensemble de technologies pour des objectifs disparates

Pas si récent, le Data Mining a existé depuis que l’humanité sait mener des recherches. Seulement, les algorithmes et les moyens informatiques actuellement disponibles ont grandement facilité la tâche à la personne chargée d’analyser les informations en vrac. Le machine learning et l’intelligence artificielle sont désormais entre les mains des spécialistes. Ces experts peuvent toujours compter sur la statistique appliquée.

Chaque entité a son propre objectif avec le Data Mining. Certaines entreprises visent à réduire les coûts de fonctionnement. La bonne connaissance des données permet de mieux organiser la logistique dans l’e-commerce. D’autres sociétés souhaitent améliorer la productivité grâce aux courbes et aux graphiques. Il y a également ceux qui veulent garder une longueur d’avance sur le marché et anticipant le comportement des consommateurs.

Ce domaine repose sur quelques éléments majeurs

L’évolution Data Mining dépend de celle du numérique. L’apparition de banque de données et de puissants serveurs facilite l’accès aux informations brutes. Puis, les outils d’analyse sont devenus performants grâce à une vitesse de calcul inimaginable. Toute cette course technologique fait partie de tout un circuit dont voici les principales fonctions :

  • Les données sont stockées dans des Data Warehouse, elles s’épaississent avec le temps.
  • Des data scientists extraient les blocs qu’il leur faut dans les serveurs.
  • L’analyse multidimensionnelle concerne surtout les transactions.
  • Les chiffres et les informations sont synthétisés en tableau ou graphiques.
  • Des présentations succinctes résument des semaines de compilation de données.

 

L’extraction est l’analyse d’énorme quantité de renseignements

Les professionnels du Data Mining manipulent divers outils analytiques. Ce sont des logiciels et des algorithmes sur mesure. Cela dit, le cerveau humain est également indispensable pour catégoriser et résumer les renseignements. Les informations sont majoritairement d’ordre relationnel, mais l’exploration de données ne se limite pas au domaine mercatique. La santé, la politique et bien d’autres secteurs d’activités pourront profiter du Knowledge Discovery in Data.

Pour mieux comprendre, voici les tâches que les algorithmes analytiques réalisent :

  • Association, il s’agit de regrouper les renseignements identiques pour en tirer une logique mathématique.
  • L’analyse séquentielle établit la relation de cause à effet entre deux événements
  • Classification : l’idée est de ranger les informations hétérogènes en attendant de trouver une corrélation entre elles.
  • Clustering : c’est surtout de la segmentation du marché.
  • Prédiction, les experts en exploration de données sont les messieurs météo des affaires.

La science transformant les données en informations et savoirs utiles

Un data scientist passe ses journées à recueillir des données. Il s’intéresse aux faits, nombres et textes potentiellement exploitables. Tous les formats sont retenus. Ceux qui ne peuvent pas encore être explorés attendent patiemment qu’une technologie capable de les traduire en informations utiles apparaisse. Les données sont principalement transactionnelles ou opérationnelles. Les unes renseignent sur les ventes tandis que les autres relèvent de la comptabilité analytique.

Les compilations de chiffres, de mots clés ou de faits sont insignifiantes tant qu’elles ne sont pas analysées. L’expert utilise des moyens technologiques pour les manier. Sa mission consiste à associer, classer et ordonner de manière à obtenir des informations compréhensibles. À titre d’exemple, les tickets de caisse peuvent renseigner sur les meilleures ventes et les produits qui ont besoin de communication. L’exploration de données aboutit à des conclusions. Ce sont des patterns ou tendances qui constituent des savoirs indispensables pour l’avenir.

Les mines de renseignements

Avant analyse, les données sont stockées dans des Data Warehouses. Ce sont des hangars virtuels où les chiffres, faits et séquences sont entreposés de manière brute. Leur collecte a déjà demandé des moyens technologiques importants. Les codes-barres et QR Codes figurent dans la liste. Cela dit, les formulaires ainsi que les enregistrements faits par les consommateurs eux-mêmes approvisionnent les silos de datas.

Les entreprises n’ont pas l’obligation de constituer une Data Warehouse pour disposer de prévision. Elles peuvent se servir sur les données compilées par autrui. Outre les autres sociétés, les réseaux sociaux et les moteurs de recherche stockent le moindre geste des internautes. Les analystes pourront accéder à des informations sur une cible précise en payant une contrepartie financière. Les cookies proposés à l’entrée des sites Internet sont des robots qui récoltent des données.

Multiples utilités pour cette science

Bien que l’application commerciale reste la plus rependue, le Data Mining ne se limite pas au marketing et la grande distribution.

  • Les chercheurs de l’enseignement supérieur s’en servent tous les jours. Il arrive aussi aux scientifiques de recourir aux applications analytiques pour mieux comprendre la génétique et la chimie.
  • Actuellement, l’OMS tire des conclusions sur les vaccins anticovid19 en compilant les rapports quotidiens des personnels de santé depuis des tablettes connectées.
  • Pour ceux qui souhaitent se lancer dans l’édition de site Internet, le Web Mining est pour eux. S’appuyant sur l’analyse des interactions avec les visiteurs, il vise à identifier des modèles de comportement. Il est même possible de quantifier les remarques.
  • Le département des ressources humaines peut explorer les données pour chercher à comprendre le personnel. Les statistiques permettent de mieux gérer les carrières.
  • Des grandes entreprises d’e-commerce s’appuient sur le Data Mining pour piloter leurs promotions ciblées. Elles ajustent également leur marketing mix : prix, communication, distribution et le produit lui-même.

L’analyse des données permet de mieux comprendre la consommation

Dans la catégorie du commerce aux détails, les chaînes d’épiceries américaines sont nombreuses à compter sur Oracle. Ce dernier propose des outils analytiques permettant de préciser les besoins des consommateurs à partir des achats. Le service d’approvisionnement sait pertinemment quels produits envoyer à quels magasins. Le logiciel démontre que la vente de bières et de couches monte en flèche le jeudi et samedi dans certaines villes du centre ouest des États-Unis.

Les marchandiseurs ont conclu que :

  • La population renouvelle leur réserve de boissons en semaine pour qu’elles soient bien fraîches le week-end.
  • Il faut rapprocher le rayon des bières et des couches bébés pour faciliter la tâche aux consommateurs.

Une meilleure collaboration grâce à des données transactionnelles transparentes

Une certaine transparence des données a permis à WalMart de mieux planifier ses réassorts. Le géant de la grande distribution s‘est appuyé sur cette principe pour gérer la relation avec ses fournisseurs. Quelques 3500 d’entre eux ont pu accéder à une Data Warehouse. Grâce à un logiciel mis au point par Teradata, ils ont pu suivre en temps réel le stock dans 2 900 magasins répartis dans 6 pays.

  • Les fournisseurs ajustent leur livraison en prenant compte les habitudes d’achat des clients dans chaque supermarché.
  • L’analyse globale leur a permis d’identifier des besoins et conduit au lancement de nouveaux produits.
  • WalMart est un pionnier du Data Mining puisque ses ordinateurs étaient capables de gérer jusqu’à un million de requêtes complexes dès 1995.

Un exemple dans le milieu associatif

La National Basketball Association (NBA) fait aussi du Data Mining. Le leader du jeu collectif analyse les enregistrements vidéo des matchs. Il utilise Advanced Scout, un logiciel qui permet de suivre les mouvements des joueurs. Les coaches des différentes équipes ont accès aux informations qui en résultent. Cela leur aide à mieux orchestrer les stratégies sur le terrain.

A lire également  Définition : Deep Learning

En 1995, le match disputé entre les New York Knicks et les Cavaliers de Cleveland ont permis de démontrer mathématiquement que John Williams marque plus de paniers quand Mark Price était en jeu défensif. Pionnier dans les statistiques appliquées au sport, Advanced Scout estime que les Cavaliers manquent 51 % des tirs. Ce genre de conclusion quantifiée évite aux coaches et aux équipes de visionner des heures de vidéo.

La donne a changé avec l’apparition d’Internet

L’avènement du Web 2.0 porte le Data Mining à une tout autre dimension que de simples statistiques. Les choses vont encore se compliquer avec les réseaux sociaux et les objets connectés. Des quantités astronomiques de données sont collectées et analysées. Les entreprises surveillent de près les consommateurs. Ils prêtent attention à ce qu’ils publient, aiment et partagent sur plateformes.

Les postes sur Facebook peuvent être évitées pour ceux qui veulent limiter leurs empreintes numériques. Il est aussi possible d’effacer l’historique de navigation sur le Web. Par contre, il est moins facile d’échapper aux enregistrements des achats par cartes de crédit ou l’apparition dans les vidéosurveillances. Les décideurs politiques ont même dû établir des lois à ce sujet. Depuis 2018, Google peut faire disparaître de sa banque de données des noms ou des contenus à partir d’une simple demande de l’intéressé.

Un dictat des données encore contesté

Google n’a pas la suprématie en matière de stockage de données. D’autres firmes exploitent le filon. L’ensemble des serveurs délocalisés au profit d’utilisateurs professionnels et des particuliers forment le Cloud. Les entreprises y stockent des informations brutes pour mieux comprendre leur clientèle cible. Certaines d’entre elles les revendent à d’autres sociétés. Les gouvernements sont également nombreux à se servir. Le tout s’effectue sans le consentement des concernés. Désormais, des entreprises proposent aux consommateurs de garder le contrôle sur leur empreinte numérique.

Leader de son domaine, Digi.me qui est opérationnel depuis 2009. Cette startup propose aux personnes physiques de gérer eux-mêmes les informations qui leurs concernent grâce à des outils dédiés. Ils peuvent les collecter et les partager suivant leurs propres conditions. Le concept « Mon Internet » permet de vendre soi-même les datas. Digi.me déploie des serveurs individualisés avec l’aide de Toshiba et de Lenovo. Les secteurs de l’assurance santé, des finances mais également de l’industrie pharmaceutique sont parmi les plus fidèles clients.

L’exploitation des datas pour des fins administratives ou le recrutement

Le gouvernement indien se sert du Data Mining pour traquer l’évasion fiscale. L’administration locale propose des moyens de paiement simplifiés aux citoyens. Les contribuables pas très nets auront un peu plus de mal à contourner le système. La France déploie également un dispositif similaire. Les équipes de la DGFIP comprennent des statisticiens dont la mission est de trouver les fraudes en matière de TVA. Les chiffres et les pourcentages mettent en évidence les manœuvres dans certains secteurs d’activités.

Les applications du Data Mining sont aussi au service des professionnels du recrutement. Ces derniers utilisent des outils digitaux pour localiser les plus talentueux collaborateurs. Les entreprises irlandaises s’appuient sur cette approche pour trouver des candidats de valeur. Elles analysent des compilations d’informations pour partir à la chasse des jeunes diplômés avec les meilleures notes ou les travailleurs les plus productifs. LinkedIn exploite ce filon en consacrant 200 salariés engagés à temps plein.

Un fonctionnement assez simple à comprendre

Le principal rôle du Data Mining est d’assurer la jonction entre les données relationnelles et les informations transactionnelles. En d’autres termes, les renseignements sur les clients, mais également sur le fonctionnement d’une entreprise sont analysés. Une énorme quantité de logiciels basés sur les statistiques ont vu le jour. À cela s’ajoute le Machine Learning ainsi que les réseaux neuronaux. Explications :

  • Les données stockées permettent d’établir des groupes prédéterminés. Exemple : une chaîne de restauration rapide analyse les habitudes de consommateur pour proposer les menus.
  • Organisés en clusters, les datas sont regroupés pour tirer une conclusion sur les préférences des clients. Ces renseignements aboutissent à des segments de marché ou des affinités.
  • Parfois, les produits sont associés grâce à l’exploration des datas. C’est le cas de la bière et des couches bébés.
  • Les patterns séquentiels permettent d’anticiper les tendances. Exemple : une personne qui achète un sac de couchage peut aussi investir sur des chaussures de randonnée.

5 principaux outils entre les mains des datas scientists

data science

Actuellement à la mode, les réseaux de neurones sont des programmes capables d’analyse non linéaire. Cette forme d’intelligence artificielle permet des prédictions proches des intuitions humaines.

Les arbres décisionnels ont aussi la côte. Les directions qu’une entreprise peut prendre se présente comme une ramification complexe. Les modèles Classification et Régression (CART), ou Chi Square Automatic Interaction Detection (CHAID) sont les plus connus.

La méthode du Voisin le plus proche est également explorée. Il s’agit de tirer des conclusions sur des tendances en se basant sur des comportements similaires. En droit, cela s’appelle la jurisprudence.

Les règles « si-alors » reposent sur la programmation simple basée sur les signifiances statistiques. C’est également le cas de la visualisation des relations complexes. Les informations multidimensionnelles sont illustrées de manière compréhensible par tous.

Les algorithmes génétiques ont eu le vent en poupe lorsque le monde s’est subitement intéressé aux sciences médicales. Des datas scientists contribuent aussi aux efforts pour combattre la pandémie Covid19. Ils manipulent les combinaisons, la mutation ainsi que sélection naturelle.

3 étapes qui restent quasiment les mêmes

Le Data Mining change de forme pour chaque secteur d’activités. Par contre, les étapes à suivre sont quasiment les mêmes.

  1. Les entreprises ravitaillent les Data Warehouses de diverses manières. Les données sont stockées dans des serveurs locaux ou le Cloud.
  2. Les Business analysts prennent le relais en cherchant les logiques des comportements des consommateurs. Ils modélisent également les données de fonctionnement en vue de proposer des meilleures organisations aux partenaires commerciaux.
  3. Tous les renseignements prennent la forme de graphique ou d’une autre synthèse que les dirigeants peuvent utiliser dans leurs prises de décision.

3 principales propriétés sont inhérentes à l’exploration des datas

La découverte des patterns s’effectue de manière automatique. Fruits de travaux acharnés des programmeurs, les algorithmes savent établir une logique pour un comportement des consommateurs. Tous les formats de données sont pris en compte, mais les développeurs d’application privilégient surtout un système de score.

La prédiction de résultats est une autre branche à part. Elle ne se limite pas uniquement sur les faits commerciaux. Des algorithmes sont capables de déterminer un comportement d’achat à partir de l’éducation ou l’emplacement géographique. Ce qui permet aux entreprises de s’implanter dans des quartiers précis.

L’utilité du Data Mining est remise en cause seulement lorsque les informations qui en découlent sont inexploitables, même dans l’avenir. Les villes les plus modernes disposent d’équipes capables d’anticiper les mouvements démographiques. Ces ingénieurs informaticiens ou statisticiens sont les fonctionnaires chargés de piloter les actions à mener au niveau de la municipalité.

Les technologies de Data Mining sont plus accessibles qu’auparavant

Tous ceux qui peuvent comprendre les bases de la statistique pourront se lancer dans le Data Mining. Actuellement, des applications mobiles et outils en ligne de type SaaS permettent aux usagers tous azimuts d’analyser les données. Certains d’entre eux sont gratuits. D’autres ont des prix allant de quelques milliers au million d’euros. La facturation se fait par terabytes exploités. À titre d’exemple, NCR peut gérer jusqu’à 100 milliards de milliards d’octets.

Pour une entreprise, une application capable de décortiquer un bloc de données de 50 gigabits serait un bon début. Tout se tient dans un seul ordinateur. Puis, il faut une infrastructure pour analyser des banques d’informations plus conséquentes. La complexité des requêtes entre également dans l’équation. Par ailleurs, des notions en programmation sont utiles à ce niveau. L’investissement sur des structures digitales Massiely Parallel Processors (MPP) devient indispensable pour les multinationales.

Disponibles sous plusieurs formes, les logiciels Data Mining s’adressent aux PME. En plus des commerçants, les restaurants et les bibliothèques sont également nombreux à avoir versé de l’argent pour acquérir ces outils. Pus, il y a les programmes open sources. Weka, RapidMiner et Tanagra sont parmi les plus cités, mais d’autres sont sur le point d’être développés. Ils se basent sur des associations et les patterns séquentiels.

Que dire de plus sur le data mining ?

Dans un avenir proche, les entreprises qui maîtrisent à la perfection le maniement des données jouiront d’une croissance certaine. Par contre, les consommateurs se sentiront de plus en plus observés. Il est presque impossible de visiter un site Internet sans que l’éditeur propose un cookie. Pas étonnant que l’obésité devient la première cause de mortalité dans le monde…

Yohann G.