Informacje, które strony internetowe zbierają od Ciebie, mają na celu modelowanie nawyków konsumpcyjnych. Informacje te można nawet wykorzystać do innych celów. We wszystkich przypadkach potrzeba całego procesu przemysłowego, aby dane przemówiły. ETL łączy pierwsze 3 kroki w kierunku dogłębnej analizy w centrum danych. Ten post zachęca Cię do lepszego zrozumienia trio.
Ekstrakcja, transformacja i ładowanie danych, czyli ETL
Podobnie jak w fizycznym łańcuchu dostaw, centrum danych jest regularnie zaopatrywane. Hurtownia danych mieści dużą ilość surowych informacji. Są one zintegrowane i sklasyfikowane w celu utworzenia silosów. Z systemów operacyjnych pobierane są zatem różne informacje i parametry. Kopie są wysyłane do hurtowni danych w celu przyszłej analizy. Ten ujednolicony system ma na celu lepsze zrozumienie modeli biznesowych.
Wydobywanie danych i przesyłanie ich do wirtualnej hurtowni nazywa się ETL. Jak sugeruje akronim z języka angielskiego, proces ten składa się z 3 odrębnych etapów. To powiedziawszy, jest to uproszczona prezentacja tego, co dzieje się w centrum danych. W rzeczywistości informacja podąża znacznie bardziej złożoną ścieżką. Obejmuje inne powiązane fazy, w tym przesyłanie i uwierzytelnianie.
Proces polegający na identyfikacji i gromadzeniu danych
Podczas ekstrakcji danych specjalne algorytmy dbają o pobranie informacji z różnych miejsc. Informacje mogą pochodzić z przeglądarki, oprogramowania rozliczeniowego, geolokalizacji itp. Oprócz plików w różnych formatach wyodrębniane są arkusze kalkulacyjne, nagrania aplikacji i różne treści. Na tym etapie informacje są surowe i nie można ich jeszcze wykorzystać.
Czasami dane są przekształcane przed wysłaniem do centrum danych. Dzieje się tak w przypadku niektórych treści pochodzących z telefonów komórkowych, których przepustowość pozostaje ograniczona. Zatem wyodrębnianie odbywa się poprzez kompresję rozmiaru pliku. To powiedziawszy, pewne informacje w zakresie gigabajtów można również pobrać u źródła. Niektóre dane są przesyłane w czasie rzeczywistym, inne są kompilowane przed zebraniem.
Transport i cyfrowa transformacja informacji
Dane wyodrębnione z dowolnego źródła mogą mieć dwa skutki. Czasami są one bezpośrednio przeznaczone do oprogramowania analitycznego. Czasami przechodzą także przez system pośredni. Ten ostatni może pełnić funkcję miejsca składowania w oczekiwaniu na eksploatację. Czasami badacze danych planują transformację informacji natychmiast po ich wyodrębnieniu.
Większość procesów analizy danych wymaga transformacji treści. Ten krok różni się w zależności od obwodu. Najczęściej wiąże się to ze zmianą odpowiedniego formatu. To powiedziawszy, dedykowane algorytmy mogą zająć się czyszczeniem surowych danych. Niektóre roboty mają również za zadanie składanie lub grupowanie plików. Następnie następuje również walidacja danych w celu uzyskania znacznie bardziej wiarygodnych wyników na wyjściu.
Dwie metody ładowania baz danych
Hurtownia danych jest udostępniana na dwa sposoby.
- Pełne obciążenie odnosi się do pierwszego dostarczenia danych. Wiąże się to z dużą ilością informacji dostarczonych w jednym kawałku.
- Obciążenie przyrostowe obejmuje niewielkie ilości informacji przekazywanych w regularnych odstępach czasu lub w większych partiach.
Po otrzymaniu w centrum danych przeanalizowane informacje podążają kilkoma możliwymi ścieżkami. Często specjaliści analizują je za pomocą oprogramowania korzystającego z zapytań. Mogą pojawić się podsumowujące statystyki lub prognozy. Czasem zadanie jest na tyle skomplikowane, że trzeba je powierzyć całemu zespołowi Business Intelligence. Eksperci ci będą wiedzieć, jak sprawić, aby darowizny przemawiały na różne sposoby, w zależności od oczekiwań sponsora.
Siła i granice standaryzowanej eksploatacji danych
Procesy ETL lub ELT są specyficzne dla firm specjalizujących się w eksploracji danych. To powiedziawszy, duże korporacje i start-upy mogą na tym skorzystać na małą skalę. Ekstrakcja i analiza danych umożliwiła markom komercyjnym podejmowanie najlepszych decyzji. Dokładność prognoz zależy od wielości źródeł, ale także od jakości zebranych informacji. Co więcej, strategie marketingowe muszą być ustalane na podstawie działalności i lokalizacji geograficznej.
Automatyzacja analiz, uczenie maszynowe i sztuczna inteligencja stają się rzeczywistością dzięki doskonałemu opanowaniu ETL. Ten ostatni przyczynia się także do ewolucji Internetu Rzeczy. Interfejs urządzeń AGD został zaprojektowany z uwzględnieniem opinii i oczekiwań. Choć pozostaje dyskretna, eksploracja danych w ogromnym stopniu przyczynia się do uproszczenia codziennego życia. Od nowoczesnych samochodów po medycynę cyfrową, rolnictwo biotechniczne i robotykę – dzięki ETL wszystko można ulepszyć.