datamining

Definizione di data mining

In un’epoca in cui tutto è noto, il Data Mining può rappresentare una leva di crescita per un’azienda. Molti brand hanno basato la propria strategia di marketing su questa branca della data science. Rappresentando qualcosa di più delle statistiche, l’analisi dei Big Data è all’origine delle migliori previsioni. Questo articolo ti spiega tutto.

Data Mining o estrazione di dati

Prima di entrare nel vivo della questione forse varrebbe la pena parlare di terminologia. L’espressione Data Mining può essere tradotta come data mining. Questa versione francese si avvicina al significato inglese, ma rimane poco chiara. In realtà, si tratta più di analizzare blocchi di informazioni estratte dai silos di intelligence. Chi esercita questa professione assomiglierebbe più ad uno scienziato in camice bianco che ad un minatore imbrattato di carbone.

Applicabile in tutti gli ambiti, il Data Mining non è riservato solo ai professionisti IT e ai responsabili marketing. Chiunque può imparare ad analizzare i dati grezzi, trasformandoli in informazioni utili. È anche possibile identificare tendenze o addirittura stabilire regole o modelli. Molte aziende stanno quindi esplorando la raccolta di dati per trarre conclusioni e utilizzarli come mezzo per aumentare il proprio fatturato.

Un insieme di tecnologie per obiettivi disparati

Non così recente, il Data Mining esiste da quando l’umanità ha saputo fare ricerca. Tuttavia, gli algoritmi e le risorse informatiche attualmente disponibili hanno facilitato notevolmente il compito del responsabile dell’analisi di massa delle informazioni. L’apprendimento automatico e l’intelligenza artificiale sono ormai nelle mani di specialisti. Questi esperti possono sempre contare sulla statistica applicata.

Ogni entità ha il proprio obiettivo con il Data Mining. Alcune aziende mirano a ridurre i costi operativi. Una buona conoscenza dei dati consente di organizzare al meglio la logistica nell’e-commerce. Altre aziende vogliono migliorare la produttività con curve e grafici. C’è anche chi vuole stare al passo con il mercato e anticipare il comportamento dei consumatori.

Quest’area si basa su alcuni elementi principali

L’evoluzione del Data Mining dipende da quella della tecnologia digitale. La comparsa di database e server potenti facilita l’accesso alle informazioni grezze. Poi gli strumenti di analisi sono diventati efficienti grazie ad una velocità di calcolo inimmaginabile. Tutta questa corsa tecnologica fa parte di un intero circuito le cui funzioni principali sono:

  • I dati sono archiviati in Data Warehouse, si infittiscono nel tempo.
  • I data scientist estraggono i blocchi di cui hanno bisogno dai server.
  • L’analisi multidimensionale riguarda principalmente le transazioni.
  • I dati e le informazioni sono riassunti in tabelle o grafici.
  • Presentazioni concise riassumono settimane di compilazione dei dati.

Il mining è l’analisi di enormi quantità di informazioni

I professionisti del data mining utilizzano vari strumenti analitici. Si tratta di software e algoritmi realizzati su misura. Detto questo, il cervello umano è essenziale anche per categorizzare e riassumere le informazioni. Le informazioni sono principalmente relazionali, ma il data mining non si limita al dominio del marketing. La sanità, la politica e molti altri settori di attività potranno trarre vantaggio dalla Knowledge Discovery in Data.

Per comprendere meglio, ecco i compiti eseguiti dagli algoritmi analitici:

  • L’associazione implica il raggruppamento di informazioni identiche per derivare la logica matematica.
  • L’analisi sequenziale stabilisce la relazione di causa ed effetto tra due eventi
  • Classificazione: l’idea è quella di organizzare informazioni eterogenee in attesa di trovare una correlazione tra loro.
  • Clustering: si tratta principalmente della segmentazione del mercato.
  • Gli esperti di previsione e data mining sono i gentiluomini del tempo negli affari.

La scienza trasforma i dati in informazioni e conoscenze utili

Uno scienziato dei dati trascorre le sue giornate raccogliendo dati. È interessato a fatti, numeri e testi potenzialmente sfruttabili. Sono accettati tutti i formati. Quelli che non possono ancora essere esplorati aspettano pazientemente che appaia la tecnologia capace di tradurli in informazioni utili. I dati sono principalmente transazionali o operativi. Alcuni forniscono informazioni sulle vendite mentre gli altri si riferiscono alla contabilità analitica.

Le raccolte di numeri, parole chiave o fatti non hanno senso finché non vengono analizzate. L’esperto utilizza mezzi tecnologici per gestirli. La sua missione è associare, classificare e ordinare per ottenere informazioni comprensibili. Ad esempio, le ricevute possono fornire informazioni sui best seller e sui prodotti che necessitano di comunicazione. L’estrazione dei dati porta a conclusioni. Questi sono modelli o tendenze che costituiscono la conoscenza essenziale per il futuro.

Miniere di informazioni

Prima dell’analisi, i dati vengono archiviati in Data Warehouse. Si tratta di hangar virtuali in cui figure, fatti e sequenze sono archiviati in modo grezzo. La loro raccolta ha già richiesto notevoli risorse tecnologiche. I codici a barre e i codici QR sono inclusi nell’elenco. Detto questo, i moduli e le registrazioni effettuate dagli stessi consumatori forniscono i silos di dati.

Le aziende non sono tenute a costituire un Data Warehouse per avere previsioni. Possono utilizzare dati compilati da altri. Oltre ad altre aziende, i social network e i motori di ricerca memorizzano il minimo gesto degli utenti di Internet. Gli analisti potranno accedere alle informazioni su un target specifico pagando una commissione finanziaria. I cookie offerti all’ingresso dei siti Web sono robot che raccolgono dati.

Molteplici usi per questa scienza

Sebbene l’applicazione commerciale rimanga la più diffusa, il Data Mining non si limita al marketing e alla distribuzione di massa.

  • I ricercatori dell’istruzione superiore lo usano ogni giorno. Talvolta gli scienziati utilizzano anche applicazioni analitiche per comprendere meglio la genetica e la chimica.
  • Attualmente, l’OMS trae conclusioni sui vaccini anti-covid19 compilando rapporti giornalieri degli operatori sanitari da tablet collegati.
  • Per coloro che vogliono iniziare a pubblicare siti Web, Web Mining è per loro. Basandosi sull’analisi delle interazioni con i visitatori, mira a identificare modelli comportamentali. È anche possibile quantificare le osservazioni.
  • Il dipartimento delle risorse umane può esplorare i dati per cercare di comprendere il personale. Le statistiche consentono di gestire meglio le carriere.
  • Le grandi aziende di e-commerce si affidano al Data Mining per gestire le loro promozioni mirate. Adeguano anche il loro marketing mix: prezzo, comunicazione, distribuzione e il prodotto stesso.

L’analisi dei dati fornisce una migliore comprensione dei consumi

Nella categoria vendita al dettaglio, molte catene di alimentari americane si affidano a Oracle. Quest’ultimo offre strumenti analitici per chiarire le esigenze dei consumatori in base agli acquisti. Il reparto acquisti sa esattamente quali prodotti inviare a quali negozi. Il software mostra che le vendite di birra e pannolini salgono alle stelle il giovedì e il sabato in alcune città del centro-ovest degli Stati Uniti.

I merchandiser hanno concluso che:

  • La popolazione rifornisce le proprie scorte di bevande durante la settimana, tanto che durante il fine settimana fa molto freddo.
  • Dobbiamo avvicinare il corridoio della birra e quello dei pannolini per bambini per rendere le cose più facili per i consumatori.

Migliore collaborazione attraverso dati transazionali trasparenti

Una certa trasparenza dei dati ha consentito a WalMart di pianificare meglio i propri riassortimenti. Il colosso della vendita al dettaglio si è affidato a questo principio per gestire il rapporto con i suoi fornitori. Circa 3.500 di loro hanno potuto accedere ad un Data Warehouse. Grazie al software sviluppato da Teradata, hanno potuto monitorare lo stock in tempo reale di 2.900 negozi sparsi in 6 paesi.

  • I fornitori adeguano la consegna tenendo conto delle abitudini di acquisto dei clienti in ciascun supermercato.
  • L’analisi complessiva ha permesso loro di identificare le esigenze e ha portato al lancio di nuovi prodotti.
  • WalMart è un pioniere nel data mining poiché i suoi computer erano in grado di gestire fino a un milione di query complesse già nel 1995.
A lire également  Definizione: Big Data

Un esempio nel settore associativo

Anche la National Basketball Association (NBA) si occupa di Data Mining. Il responsabile del gioco della squadra analizza le registrazioni video delle partite. Utilizza Advanced Scout, un software che tiene traccia dei movimenti del giocatore. Gli allenatori delle diverse squadre hanno accesso alle informazioni risultanti. Ciò li aiuta a orchestrare meglio le strategie sul campo.

Nel 1995, la partita giocata tra i New York Knicks e i Cleveland Cavaliers permise di dimostrare matematicamente che John Williams segna più canestri quando Mark Price era in difesa. Pioniere della statistica applicata allo sport, Advanced Scout stima che i Cavaliers sbaglino il 51% dei tiri. Questo tipo di conclusione quantificata evita ad allenatori e squadre di guardare ore di video.

La situazione è cambiata con l’avvento di Internet

L’avvento del Web 2.0 porta il Data Mining in una dimensione completamente diversa rispetto alla semplice statistica. Le cose si complicheranno ancora di più con i social network e gli oggetti connessi. Quantità astronomiche di dati vengono raccolte e analizzate. Le aziende monitorano attentamente i consumatori. Prestano attenzione a ciò che pubblicano, mettono mi piace e condividono sulle piattaforme.

I post su Facebook possono essere evitati per coloro che vogliono limitare la propria impronta digitale. È anche possibile cancellare la cronologia di navigazione web. D’altro canto, è meno facile sfuggire alle registrazioni degli acquisti con carta di credito o alla videosorveglianza. I politici hanno dovuto addirittura emanare leggi al riguardo. Dal 2018 Google ha la possibilità di rimuovere nomi o contenuti dal proprio database su semplice richiesta dell’interessato.

Un dettato di dati ancora contestato

Google non ha la supremazia quando si tratta di archiviazione dei dati. Altre aziende stanno sfruttando la vena. Tutti i server trasferiti a vantaggio degli utenti professionali e dei privati ​​formano il Cloud. Le aziende memorizzano lì informazioni grezze per comprendere meglio i loro clienti target. Alcuni di loro li rivendono ad altre società. Anche molti governi stanno aiutando se stessi. Tutto ciò avviene senza il consenso degli interessati. Ora, le aziende offrono ai consumatori la possibilità di mantenere il controllo sulla propria impronta digitale.

Leader nel suo settore, Digi.me, operativa dal 2009. Questa startup offre alle persone la possibilità di gestire le proprie informazioni utilizzando strumenti dedicati. Possono raccoglierli e condividerli alle proprie condizioni. Il concetto “My Internet” ti consente di vendere tu stesso i tuoi dati. Digi.me distribuisce server personalizzati con l’aiuto di Toshiba e Lenovo. I settori dell’assicurazione sanitaria, della finanza e dell’industria farmaceutica sono tra i clienti più fedeli.

L’utilizzo dei dati per scopi amministrativi o di reclutamento

Il governo indiano utilizza il data mining per monitorare l’evasione fiscale. L’amministrazione locale offre modalità di pagamento semplificate ai cittadini. I contribuenti che non sono molto puliti avranno qualche difficoltà in più ad aggirare il sistema. Anche la Francia sta adottando un sistema simile. I team della DGFIP comprendono statistici la cui missione è individuare le frodi IVA. I dati e le percentuali evidenziano le manovre in alcuni settori di attività.

Le applicazioni di data mining sono anche al servizio dei professionisti del reclutamento. Usano strumenti digitali per individuare i dipendenti più talentuosi. Le aziende irlandesi si affidano a questo approccio per trovare candidati validi. Analizzano raccolte di informazioni per scovare i giovani laureati con i voti migliori o i lavoratori più produttivi. LinkedIn sfrutta questa vena dedicandovi 200 dipendenti a tempo pieno.

Funzionamento abbastanza semplice da comprendere

Il ruolo principale del Data Mining è garantire la connessione tra dati relazionali e informazioni transazionali. In altre parole si analizzano informazioni sui clienti, ma anche sul funzionamento di un’azienda. È emersa un’enorme quantità di software basato sulle statistiche. A questo si aggiungono il Machine Learning e le reti neurali. Spiegazioni:

  • I dati memorizzati consentono di stabilire gruppi predeterminati. Esempio: una catena di fast food analizza le abitudini dei consumatori per offrire menù.
  • Organizzati in cluster, i dati vengono raggruppati per trarre una conclusione sulle preferenze dei clienti. Queste informazioni si traducono in segmenti di mercato o affinità.
  • A volte, i prodotti vengono associati tramite data mining. Questo è il caso della birra e dei pannolini per bambini.
  • I modelli sequenziali consentono di anticipare le tendenze. Esempio: una persona che acquista un sacco a pelo può investire anche in scarpe da trekking.

5 strumenti principali nelle mani dei data scientist

scienza dei dati

Attualmente di moda, le reti neurali sono programmi in grado di effettuare analisi non lineari. Questa forma di intelligenza artificiale consente previsioni vicine alle intuizioni umane.

Anche gli alberi decisionali sono popolari. Le direzioni che un’azienda può prendere sono ramificazioni complesse. I modelli di classificazione e regressione (CART) o Chi Square Automatic Interaction Detection (CHAID) sono i più conosciuti.

Viene inoltre esplorato il metodo del vicino più vicino. Ciò implica trarre conclusioni sulle tendenze basate su comportamenti simili. In diritto questo si chiama giurisprudenza.

Le regole “Se-allora” si basano su una programmazione semplice basata sulla significatività statistica. Questo vale anche per visualizzare relazioni complesse. Le informazioni multidimensionali sono illustrate in modo che tutti possano comprenderle.

Gli algoritmi genetici decollarono quando il mondo cominciò improvvisamente a interessarsi alle scienze mediche. Anche i data scientist stanno contribuendo agli sforzi per combattere la pandemia di Covid19. Manipolano combinazioni, mutazioni e selezione naturale.

3 passaggi che rimangono quasi gli stessi

Il Data Mining cambia forma per ogni settore di attività. D’altra parte, i passaggi da seguire sono quasi gli stessi.

  1. Le aziende forniscono Data Warehouse in vari modi. I dati vengono archiviati su server locali o sul Cloud.
  2. Gli analisti aziendali subentrano cercando la logica del comportamento dei consumatori. Modellano inoltre i dati operativi per offrire organizzazioni migliori ai partner commerciali.
  3. Tutte le informazioni assumono la forma di un grafico o di un altro riepilogo che i manager possono utilizzare nel loro processo decisionale.

3 proprietà principali sono inerenti al data mining

Il rilevamento del modello viene eseguito automaticamente. Frutto del duro lavoro dei programmatori, gli algoritmi sanno come stabilire la logica del comportamento dei consumatori. Vengono presi in considerazione tutti i formati di dati, ma gli sviluppatori di applicazioni preferiscono soprattutto un sistema di punteggio.

La previsione dei risultati è un altro ramo a sé stante. Non si limita esclusivamente ai fatti commerciali. Gli algoritmi sono in grado di determinare il comportamento di acquisto in base all’istruzione o alla posizione geografica. Ciò consente alle imprese di stabilirsi in quartieri specifici.

L’utilità del Data Mining viene messa in discussione solo quando le informazioni risultanti sono inutilizzabili, anche in futuro. Le città più moderne dispongono di squadre capaci di anticipare i movimenti demografici. Questi ingegneri informatici o statistici sono i funzionari pubblici responsabili dell’orientamento delle azioni da realizzare a livello comunale.

Le tecnologie di Data Mining sono più accessibili di prima

Chiunque sia in grado di comprendere le basi della statistica sarà in grado di iniziare a lavorare sul Data Mining. Attualmente, le applicazioni mobili e gli strumenti online di tipo SaaS consentono a utenti di ogni tipo di analizzare i dati. Alcuni di loro sono gratuiti. Altri hanno prezzi che vanno da poche migliaia a un milione di euro. La fatturazione viene effettuata per terabyte utilizzato. Ad esempio, NCR può gestire fino a 100 miliardi di miliardi di byte.

Per un’azienda, un’applicazione in grado di analizzare un blocco di dati da 50 gigabit sarebbe un buon inizio. Tutto è contenuto in un unico computer. Quindi, abbiamo bisogno di un’infrastruttura per analizzare banche di informazioni più grandi. Anche la complessità delle query entra nell’equazione. Inoltre, a questo livello è utile la conoscenza della programmazione. Gli investimenti nelle strutture digitali Massiely Parallel Processors (MPP) stanno diventando essenziali per le multinazionali.

Disponibile in diverse forme, il software di Data Mining è rivolto alle PMI. Oltre ai commercianti, anche molti ristoranti e biblioteche hanno pagato per acquisire questi strumenti. Inoltre, ci sono programmi open source. Weka, RapidMiner e Tanagra sono tra i più citati, ma altri stanno per essere sviluppati. Si basano su associazioni e modelli sequenziali.

Cos’altro posso dire sul data mining?

Nel prossimo futuro, le aziende che padroneggeranno alla perfezione la gestione dei dati godranno di una certa crescita. D’altro canto i consumatori si sentiranno sempre più osservati. È quasi impossibile visitare un sito web senza che l’editore offra un cookie. Non c’è da stupirsi che l’obesità stia diventando la principale causa di morte nel mondo…

Elenco delle entità che utilizzano il data mining per stabilire le proprie strategie.

  • Grandi dati
  • Francia
  • Google
  • Estrazione dei dati
  • Camera di equilibrio
  • Spss
  • Microsoft
  • IBM
  • Weka
  • Erp
  • Oracolo
  • Servizi web di Amazon
  • Netflix
  • Kdd
  • Parigi
  • Servizi di analisi Microsoft
  • NCR