datamining

Definicja eksploracji danych

W czasach, gdy wszystko jest znane, Data Mining może być dźwignią rozwoju firmy. Wiele marek oparło swoją strategię marketingową na tej gałęzi nauki o danych. Analityka Big Data, reprezentująca więcej niż tylko statystyki, jest źródłem najlepszych prognoz. W tym artykule wszystko Ci wyjaśnimy.

Eksploracja danych lub eksploracja danych

Zanim przejdziemy do sedna sprawy, może warto porozmawiać o terminologii. Wyrażenie Data Mining można przetłumaczyć jako eksploracja danych. Ta wersja francuska jest zbliżona do znaczenia angielskiego, ale pozostaje niejasna. W rzeczywistości chodzi raczej o analizę bloków informacji wydobytych z silosów wywiadowczych. Osoba wykonująca ten zawód bardziej przypominałaby naukowca w białym fartuchu niż górnika wysmarowanego węglem.

Mające zastosowanie we wszystkich obszarach, Data Mining nie jest zarezerwowane tylko dla specjalistów IT i menedżerów ds. marketingu. Każdy może nauczyć się analizować surowe dane i przekształcać je w przydatne informacje. Możliwe jest także zidentyfikowanie trendów, a nawet ustalenie zasad czy wzorców. Dlatego wiele firm korzysta z kompilacji danych, aby wyciągnąć wnioski i wykorzystać je jako sposób na zwiększenie swoich obrotów.

Zestaw technologii do różnych celów

Eksploracja danych istnieje nie tak niedawno, odkąd ludzkość wiedziała, jak przeprowadzać badania. Jednakże dostępne obecnie algorytmy i zasoby obliczeniowe znacznie ułatwiły zadanie osobie odpowiedzialnej za analizę informacji masowych. Uczenie maszynowe i sztuczna inteligencja są teraz w rękach specjalistów. Eksperci ci zawsze mogą liczyć na stosowane statystyki.

Każdy podmiot ma swój własny cel w Data Mining. Niektóre firmy dążą do obniżenia kosztów operacyjnych. Dobra znajomość danych pozwala lepiej zorganizować logistykę w e-commerce. Inne firmy chcą poprawić produktywność za pomocą krzywych i wykresów. Są też tacy, którzy chcą wyprzedzać rynek i przewidywać zachowania konsumentów.

Obszar ten opiera się na kilku głównych elementach

Ewolucja Data Mining zależy od rozwoju technologii cyfrowej. Pojawienie się baz danych i wydajnych serwerów ułatwia dostęp do surowych informacji. Następnie narzędzia analityczne stały się wydajne dzięki niewyobrażalnej szybkości obliczeń. Cały ten wyścig technologiczny jest częścią całego toru, którego główne funkcje to:

  • Dane przechowywane są w hurtowniach danych, z biegiem czasu zagęszczają się.
  • Analitycy danych wyodrębniają potrzebne bloki z serwerów.
  • Analiza wielowymiarowa dotyczy głównie transakcji.
  • Liczby i informacje podsumowano w tabelach lub wykresach.
  • Zwięzłe prezentacje podsumowują tygodnie kompilacji danych.

Wydobywanie to analiza ogromnych ilości informacji

Specjaliści Data Mining korzystają z różnych narzędzi analitycznych. Są to oprogramowanie i algorytmy szyte na miarę. To powiedziawszy, ludzki mózg jest również niezbędny do kategoryzowania i podsumowywania informacji. Informacje mają głównie charakter relacyjny, ale eksploracja danych nie ogranicza się do domeny marketingowej. Zdrowie, polityka i wiele innych sektorów działalności będzie mogło skorzystać z Knowledge Discovery in Data.

Aby lepiej zrozumieć, oto zadania, które wykonują algorytmy analityczne:

  • Skojarzenie polega na grupowaniu identycznych informacji w celu uzyskania logiki matematycznej.
  • Analiza sekwencyjna ustala związek przyczynowo-skutkowy pomiędzy dwoma zdarzeniami
  • Klasyfikacja: chodzi o uporządkowanie heterogenicznych informacji w oczekiwaniu na znalezienie korelacji między nimi.
  • Klastrowanie: jest to głównie segmentacja rynku.
  • Prognozy, eksperci od eksploracji danych to panowie pogody w biznesie.

Nauka przekształcająca dane w użyteczną informację i wiedzę

Analityk danych spędza całe dnie na zbieraniu danych. Interesują go fakty, liczby i teksty, które można wykorzystać potencjalnie. Akceptowane są wszystkie formaty. Te, których nie można jeszcze zbadać, cierpliwie czekają, aż pojawi się technologia zdolna przełożyć je na przydatne informacje. Dane mają głównie charakter transakcyjny lub operacyjny. Niektóre dostarczają informacji o sprzedaży, inne dotyczą rachunkowości analitycznej.

Kompilacje liczb, słów kluczowych i faktów nie mają żadnego znaczenia, dopóki nie zostaną przeanalizowane. Ekspert posługuje się środkami technologicznymi, aby sobie z nimi poradzić. Jej misją jest kojarzenie, klasyfikowanie i porządkowanie w celu uzyskania zrozumiałej informacji. Na przykład rachunki mogą zawierać informacje o bestsellerach i produktach wymagających komunikacji. Eksploracja danych prowadzi do wniosków. Są to wzorce lub trendy, które stanowią niezbędną wiedzę na przyszłość.

Kopalnie informacji

Przed analizą dane są przechowywane w hurtowniach danych. To wirtualne hangary, w których w surowy sposób przechowywane są liczby, fakty i sekwencje. Ich zbiór wymagał już znacznych zasobów technologicznych. Na liście znajdują się kody kreskowe i kody QR. To powiedziawszy, formularze i rejestracje dokonywane przez samych konsumentów zasilają silosy danych.

Firmy nie muszą tworzyć hurtowni danych, aby mieć prognozy. Mogą korzystać z danych zebranych przez innych. Oprócz innych firm, sieci społecznościowe i wyszukiwarki przechowują najdrobniejsze gesty internautów. Analitycy będą mogli uzyskać dostęp do informacji na temat konkretnego celu, płacąc opłatę finansową. Pliki cookies oferowane przy wejściu na strony internetowe to roboty zbierające dane.

Wiele zastosowań tej nauki

Chociaż zastosowanie komercyjne pozostaje najbardziej rozpowszechnione, Data Mining nie ogranicza się do marketingu i masowej dystrybucji.

  • Naukowcy zajmujący się szkolnictwem wyższym korzystają z niego na co dzień. Naukowcy czasami korzystają także z aplikacji analitycznych, aby lepiej zrozumieć genetykę i chemię.
  • Obecnie WHO wyciąga wnioski na temat szczepionek przeciwko covid19, zestawiając codzienne raporty pracowników służby zdrowia z podłączonych tabletów.
  • Dla tych, którzy chcą rozpocząć publikowanie stron internetowych, Web Mining jest dla nich. Na podstawie analizy interakcji z odwiedzającymi ma na celu identyfikację wzorców zachowań. Możliwe jest nawet ilościowe określenie uwag.
  • Dział zasobów ludzkich może eksplorować dane, aby zrozumieć personel. Statystyki pozwalają lepiej zarządzać karierą.
  • Duże firmy z branży e-commerce polegają na Data Mining w zarządzaniu ukierunkowanymi promocjami. Dostosowują także swój marketing mix: cenę, komunikację, dystrybucję i sam produkt.

Analiza danych pozwala na lepsze zrozumienie konsumpcji

W kategorii handlu detalicznego wiele amerykańskich sieci spożywczych polega na Oracle. Ten ostatni oferuje narzędzia analityczne umożliwiające doprecyzowanie potrzeb konsumentów na podstawie dokonanych zakupów. Dział zakupów dokładnie wie, które produkty wysłać do jakich sklepów. Oprogramowanie pokazuje, że w niektórych miastach środkowo-zachodnich Stanów Zjednoczonych w czwartki i soboty sprzedaż piwa i pieluch gwałtownie rośnie.

Sprzedawcy doszli do wniosku, że:

  • Ludność uzupełnia zapasy napojów w ciągu tygodnia, dzięki czemu w weekendy są bardzo zimne.
  • Musimy zbliżyć do siebie alejkę z piwem i pieluchami dla dzieci, aby ułatwić konsumentom.

Lepsza współpraca dzięki przejrzystym danym transakcyjnym

Pewna przejrzystość danych pozwoliła WalMartowi lepiej zaplanować uzupełnianie zapasów. Gigant handlu detalicznego oparł się na tej zasadzie, aby zarządzać relacjami ze swoimi dostawcami. Około 3500 z nich uzyskało dostęp do hurtowni danych. Dzięki oprogramowaniu opracowanemu przez Teradata mogli monitorować w czasie rzeczywistym stany magazynowe w 2900 sklepach w 6 krajach.

  • Dostawcy dostosowują swoje dostawy, biorąc pod uwagę zwyczaje zakupowe klientów w każdym supermarkecie.
  • Całość analizy pozwoliła zidentyfikować potrzeby i zaowocowała wprowadzeniem na rynek nowych produktów.
  • WalMart jest pionierem w eksploracji danych, ponieważ już w 1995 roku jego komputery były w stanie obsłużyć nawet milion złożonych zapytań.
A lire également  Definicja: PABX

Przykład w sektorze stowarzyszeniowym

National Basketball Association (NBA) również zajmuje się eksploracją danych. Lider gry zespołu analizuje nagrania wideo meczów. Wykorzystuje Advanced Scout, oprogramowanie śledzące ruchy gracza. Dostęp do uzyskanych informacji mają trenerzy poszczególnych drużyn. Pomaga im to lepiej koordynować strategie w terenie.

W 1995 roku mecz rozegrany pomiędzy New York Knicks i Cleveland Cavaliers pozwolił matematycznie wykazać, że John Williams zdobywa więcej koszy, gdy Mark Price gra w defensywie. Pionier statystyk stosowanych w sporcie, Advanced Scout szacuje, że Cavaliers nie trafiają 51% strzałów. Tego rodzaju wymierne wnioski oszczędzają trenerom i zespołom konieczności oglądania godzin filmów wideo.

Sytuacja uległa zmianie wraz z pojawieniem się Internetu

Pojawienie się Web 2.0 przenosi eksplorację danych w zupełnie inny wymiar niż zwykła statystyka. Sprawa stanie się jeszcze bardziej skomplikowana w przypadku sieci społecznościowych i połączonych obiektów. Gromadzone i analizowane są astronomiczne ilości danych. Firmy uważnie monitorują konsumentów. Zwracają uwagę na to, co publikują, lubią i udostępniają na platformach.

Postów na Facebooku można unikać, jeśli chcą ograniczyć swój cyfrowy ślad. Możliwe jest także wyczyszczenie historii przeglądania stron internetowych. Z drugiej strony trudniej jest uniknąć nagrań zakupów kartą kredytową lub obecności w monitoringu wideo. Politycy musieli nawet uchwalić odpowiednie przepisy. Od 2018 r. Google może usuwać nazwiska lub treści ze swojej bazy danych na proste żądanie zainteresowanej strony.

Dyktat dotyczący danych nadal kwestionowany

Google nie ma dominacji w zakresie przechowywania danych. Inne firmy eksploatują żyłę. Wszystkie serwery zostały przeniesione na korzyść użytkowników profesjonalnych i osób prywatnych z Chmury. Firmy przechowują tam surowe informacje, aby lepiej zrozumieć swoich docelowych klientów. Część z nich odsprzedaje je innym firmom. Wiele rządów pomaga także sobie. Wszystko to odbywa się bez zgody zainteresowanych. Obecnie firmy oferują konsumentom możliwość zachowania kontroli nad swoim cyfrowym śladem.

Lider w swojej branży Digi.me, działający od 2009 roku. Startup ten oferuje jednostkom możliwość zarządzania własnymi informacjami za pomocą dedykowanych narzędzi. Mogą je gromadzić i udostępniać na własnych zasadach. Koncepcja „Mój Internet” pozwala na samodzielną sprzedaż swoich danych. Digi.me wdraża zindywidualizowane serwery przy pomocy firm Toshiba i Lenovo. Do najbardziej lojalnych klientów należą sektory ubezpieczeń zdrowotnych, finansów i przemysłu farmaceutycznego.

Wykorzystanie danych w celach administracyjnych lub rekrutacyjnych

Rząd Indii wykorzystuje eksplorację danych do śledzenia uchylania się od płacenia podatków. Administracja lokalna oferuje obywatelom uproszczone metody płatności. Podatnicy, którzy nie są zbyt czyści, będą mieli nieco większe trudności z obejściem systemu. Podobny system wdraża również Francja. W skład zespołów DGFIP wchodzą statystycy, których misją jest wykrywanie wyłudzeń w podatku VAT. Liczby i wartości procentowe podkreślają manewry w niektórych sektorach działalności.

Aplikacje do eksploracji danych są również dostępne dla specjalistów zajmujących się rekrutacją. Wykorzystują narzędzia cyfrowe do wyszukiwania najbardziej utalentowanych pracowników. Irlandzkie firmy korzystają z tego podejścia, aby znaleźć wartościowych kandydatów. Analizują zestawienia informacji, aby wyłowić młodych absolwentów z najlepszymi ocenami lub najbardziej produktywnych pracowników. LinkedIn wykorzystuje tę tendencję, zatrudniając 200 pełnoetatowych pracowników.

Dość proste do zrozumienia działanie

Główną rolą Data Mining jest zapewnienie połączenia pomiędzy danymi relacyjnymi i informacjami transakcyjnymi. Innymi słowy, analizowane są informacje o klientach, ale także o funkcjonowaniu firmy. Pojawiła się ogromna ilość oprogramowania opartego na statystykach. Do tego dochodzi uczenie maszynowe i sieci neuronowe. Wyjaśnienia:

  • Zapisane dane umożliwiają tworzenie z góry ustalonych grup. Przykład: sieć fast foodów analizuje zwyczaje konsumentów, aby zaoferować menu.
  • Dane, zorganizowane w klastry, są grupowane w celu wyciągnięcia wniosków na temat preferencji klientów. Z informacji tych wynikają segmenty rynku lub pokrewieństwa.
  • Czasami produkty są powiązane poprzez eksplorację danych. Tak jest w przypadku piwa i pieluch dla dzieci.
  • Wzorce sekwencyjne pozwalają przewidywać trendy. Przykład: osoba kupująca śpiwór może zainwestować także w buty turystyczne.

5 głównych narzędzi w rękach analityków danych

nauka o danych

Obecnie modne są sieci neuronowe, czyli programy umożliwiające analizę nieliniową. Ta forma sztucznej inteligencji pozwala na przewidywania bliskie ludzkiej intuicji.

Popularne są również drzewa decyzyjne. Kierunki, jakie może obrać biznes, mają złożone konsekwencje. Najbardziej znane są modele klasyfikacji i regresji (CART) lub automatycznego wykrywania interakcji Chi Square (CHAID).

Badana jest także metoda najbliższego sąsiada. Polega to na wyciąganiu wniosków na temat trendów na podstawie podobnych zachowań. W prawie nazywa się to orzecznictwem.

Reguły „jeśli-to” opierają się na prostym programowaniu opartym na istotności statystycznej. Dzieje się tak również w przypadku wizualizacji złożonych relacji. Informacje wielowymiarowe są zilustrowane w sposób zrozumiały dla każdego.

Algorytmy genetyczne nabrały rozgłosu, gdy świat nagle zainteresował się naukami medycznymi. Analitycy danych przyczyniają się również do wysiłków na rzecz zwalczania pandemii Covid19. Manipulują kombinacjami, mutacjami, a także doborem naturalnym.

3 kroki, które pozostają prawie takie same

Data Mining zmienia formę dla każdego sektora działalności. Z drugiej strony kroki, które należy wykonać, są prawie takie same.

  1. Firmy udostępniają hurtownie danych na różne sposoby. Dane przechowywane są na serwerach lokalnych lub w chmurze.
  2. Analitycy biznesowi przejmują kontrolę, szukając logiki zachowań konsumentów. Modelują także dane operacyjne, aby oferować partnerom biznesowym lepsze organizacje.
  3. Wszystkie informacje mają formę wykresu lub innego podsumowania, które menedżerowie mogą wykorzystać w procesie decyzyjnym.

Eksploracja danych wiąże się z trzema głównymi właściwościami

Wykrywanie wzorców odbywa się automatycznie. Algorytmy, będące owocem ciężkiej pracy programistów, wiedzą, jak ustalić logikę zachowań konsumentów. Pod uwagę brane są wszystkie formaty danych, ale twórcy aplikacji szczególnie preferują system punktacji.

Przewidywanie wyników to osobna gałąź. Nie ogranicza się to wyłącznie do faktów handlowych. Algorytmy są w stanie określić zachowania zakupowe na podstawie wykształcenia lub lokalizacji geograficznej. Dzięki temu firmy mogą osiedlać się w określonych dzielnicach.

Przydatność eksploracji danych jest kwestionowana tylko wtedy, gdy uzyskane informacje nie nadają się do wykorzystania, nawet w przyszłości. W najnowocześniejszych miastach istnieją zespoły potrafiące przewidywać ruchy demograficzne. Ci inżynierowie komputerowi lub statystycy to urzędnicy służby cywilnej odpowiedzialni za kierowanie działaniami, które mają być prowadzone na szczeblu gminnym.

Technologie Data Mining są bardziej dostępne niż wcześniej

Każdy, kto potrafi zrozumieć podstawy statystyki, będzie mógł rozpocząć pracę z Data Miningiem. Obecnie aplikacje mobilne i narzędzia online typu SaaS pozwalają użytkownikom wszelkiego rodzaju analizować dane. Niektóre z nich są bezpłatne. Inne mają ceny wahające się od kilku tysięcy do miliona euro. Rozliczenie odbywa się za wykorzystany terabajt. Na przykład NCR może obsłużyć do 100 miliardów miliardów bajtów.

Dla firmy dobrym początkiem byłaby aplikacja zdolna do analizy 50-gigabitowego bloku danych. Wszystko odbywa się w jednym komputerze. Następnie potrzebujemy infrastruktury do analizy większych banków informacji. Złożoność zapytań również wchodzi w grę. Ponadto na tym poziomie przydatna jest wiedza z zakresu programowania. Inwestycje w struktury cyfrowe Massiely Parallel Processors (MPP) stają się niezbędne dla międzynarodowych korporacji.

Dostępne w kilku formach oprogramowanie Data Mining jest skierowane do MŚP. Oprócz sprzedawców wiele restauracji i bibliotek również zapłaciło za zakup tych narzędzi. Ponadto istnieją programy typu open source. Do najczęściej cytowanych należą Weka, RapidMiner i Tanagra, ale wkrótce zostaną opracowane inne. Opierają się na skojarzeniach i wzorcach sekwencyjnych.

Co więcej mogę powiedzieć o eksploracji danych?

W niedalekiej przyszłości firmy, które perfekcyjnie opanują przetwarzanie danych, odnotują pewien wzrost. Z drugiej strony konsumenci będą czuć się coraz bardziej obserwowani. Odwiedzenie strony internetowej bez udostępnienia przez wydawcę pliku cookie jest prawie niemożliwe. Nic dziwnego, że otyłość staje się główną przyczyną zgonów na świecie…

Lista podmiotów wykorzystujących eksplorację danych przy ustalaniu swoich strategii.

  • Duże dane
  • Francja
  • Google
  • Eksploracja danych
  • śluza
  • Sps
  • Microsoftu
  • IBM-a
  • Weka
  • Erp
  • Wyrocznia
  • Usługi internetowe Amazona
  • Netflixa
  • Kdd
  • Paryż
  • Usługi analityczne Microsoftu
  • NCR