datamining

データマイニングの定義

すべてが知られている現在、データマイニングは企業の成長の手段となり得ます。多くのブランドは、データ サイエンスのこの分野に基づいてマーケティング戦略を行っています。統計以上のものを表すビッグ データ分析は、最良の予測の源となります。この記事ではすべてを説明します。

データマイニングまたはデータマイニング

問題の核心に入る前に、用語について話しておく価値があるかもしれません。データマイニングという表現はデータマイニングと訳せます。このフランス語版は英語の意味に近いですが、不明瞭なままです。実際、それは情報サイロから抽出された情報ブロックを分析することに重点を置いています。この職業に従事する人は、石炭にまみれた鉱山労働者というよりも、白衣を着た科学者に似ているでしょう。

すべての分野に適用できるデータ マイニングは、IT プロフェッショナルやマーケティング マネージャーだけが利用できるものではありません。生データを分析して有用な情報に変換する方法を誰でも学ぶことができます。傾向を特定したり、ルールやパターンを確立したりすることもできます。したがって、多くの企業は結論を導き出し、売上高を高める手段としてデータを活用することを検討しています。

さまざまな目的に対応する一連のテクノロジー

データ マイニングは、それほど最近ではなく、人類が研究の実行方法を知っていた頃から存在していました。しかし、現在利用可能なアルゴリズムとコンピューティング リソースにより、大量の情報の分析を担当する人の作業が大幅に容易になりました。機械学習と人工知能は現在、専門家の手に委ねられています。これらの専門家は、常に応用統計を信頼できます。

各エンティティにはデータ マイニングに関する独自の目的があります。一部の企業は運用コストの削減を目指しています。データに関する十分な知識があれば、電子商取引における物流をより適切に組織することが可能になります。他の企業は、曲線やグラフを使用して生産性を向上させたいと考えています。市場の先を行き、消費者の行動を先取りしたいと考える人もいます。

この領域はいくつかの主要な要素に基づいています

データマイニングの進化はデジタルテクノロジーの進化に依存しています。データベースと強力なサーバーの出現により、生の情報へのアクセスが容易になりました。その後、解析ツールは想像を絶する計算速度により効率化されました。この技術競争全体は、主な機能が次のような回路全体の一部です。

  • データはデータ ウェアハウスに保存され、時間の経過とともに厚くなります。
  • データ サイエンティストは、サーバーから必要なブロックを抽出します。
  • 多次元分析は主にトランザクションに関係します。
  • 図や情報は表やグラフにまとめられます。
  • 簡潔なプレゼンテーションは、数週間にわたるデータ編集を要約しています。

マイニングとは膨大な量の情報を分析することです

データ マイニングの専門家は、さまざまな分析ツールを使用します。これらはオーダーメイドのソフトウェアとアルゴリズムです。とはいえ、人間の脳は情報を分類したり要約したりするのにも不可欠です。情報は主にリレーショナルなものですが、データマイニングはマーケティング領域に限定されません。医療、政治、その他多くの分野の活動がデータの知識発見から恩恵を受けることができます。

より深く理解するために、分析アルゴリズムが実行するタスクを次に示します。

  • 関連には、数学的論理を導き出すために同一の情報をグループ化することが含まれます。
  • 逐次分析により、2 つのイベント間の因果関係が確立されます。
  • 分類: このアイデアは、異種の情報を整理しながら、それらの間の相関関係が見つかるのを待つことです。
  • クラスタリング: これは主に市場の細分化です。
  • 予測とデータマイニングの専門家は、ビジネスの気象紳士です。

データを有益な情報と知識に変換する科学

データ サイエンティストはデータの収集に日々を費やしています。彼は潜在的に悪用可能な事実、数字、文章に興味を持っています。すべての形式が受け入れられます。まだ調査されていないものは、それらを有用な情報に変換できるテクノロジーが登場するのを辛抱強く待っています。データは主にトランザクション データまたは運用データです。販売に関する情報を提供するものもあれば、分析会計に関連するものもあります。

数字、キーワード、事実をまとめたものは、分析するまでは意味がありません。専門家は技術的手段を使ってそれらを処理します。その使命は、理解可能な情報を取得するために関連付け、分類、順序付けすることです。たとえば、領収書には、コミュニケーションが必要なベストセラーや製品に関する情報が含まれています。データマイニングは結論を導きます。これらは、将来にとって不可欠な知識を構成するパターンまたは傾向です。

情報鉱山

分析前に、データはデータ ウェアハウスに保存されます。これらは、図、事実、シーケンスが生の形式で保存される仮想格納庫です。彼らのコレクションにはすでに多大な技術リソースが必要です。バーコードと QR コードがリストに含まれています。とはいえ、フォームや消費者自身が行う登録はデータサイロを提供します。

企業は、予測を行うためにデータ ウェアハウスをセットアップする必要はありません。他人が編集したデータを使用することができます。他の企業に加えて、ソーシャル ネットワークや検索エンジンもインターネット ユーザーのわずかなジェスチャーを保存します。アナリストは金銭的な手数料を支払うことで、特定のターゲットに関する情報にアクセスできるようになる。 Web サイトの入り口で提供される Cookie は、データを収集するロボットです。

この科学のさまざまな用途

商用アプリケーションが依然として最も広く普及していますが、データ マイニングはマーケティングや大量配布に限定されません。

  • 高等教育の研究者は毎日それを使用しています。科学者は、遺伝学や化学をより深く理解するために分析アプリケーションを使用することもあります。
  • 現在、WHOは、接続されたタブレットから医療従事者からの日次報告をまとめることにより、抗Covid19ワクチンに関する結論を導き出しています。
  • Web サイトの公開を始めたい人には、Web Mining が最適です。訪問者とのやり取りの分析に基づいて、行動パターンを特定することを目的としています。コメントを数値化することも可能です。
  • 人事部門はデータを調査してスタッフを理解することができます。統計により、キャリアをより適切に管理できるようになります。
  • 大手電子商取引企業は、対象を絞ったプロモーションを管理するためにデータ マイニングに依存しています。また、価格、コミュニケーション、流通、製品自体などのマーケティング ミックスも調整します。

データ分析により消費をより深く理解できるようになります

小売分野では、多くのアメリカの食料品チェーンが Oracle に依存しています。後者は、購入に基づいて消費者のニーズを明確にする分析ツールを提供します。調達部門は、どの商品をどの店舗に送るかを正確に把握しています。このソフトウェアによると、米国中西部の一部の都市では、木曜と土曜にビールとおむつの売り上げが急増する。

マーチャンダイザーは次のように結論付けました。

  • 人々は平日に飲み物を補充するため、週末には非常に寒くなります。
  • 消費者が利用しやすいように、ビールと赤ちゃんのおむつの通路を近づける必要があります。

透過的なトランザクションデータによるコラボレーションの向上

データの一定の透明性により、ウォルマートは在庫補充をより適切に計画できるようになりました。小売大手はこの原則に基づいてサプライヤーとの関係を管理しました。そのうち約 3,500 人がデータ ウェアハウスにアクセスできました。 Teradata が開発したソフトウェアのおかげで、6 か国にまたがる 2,900 店舗の在庫をリアルタイムで監視することができました。

  • サプライヤーは、各スーパーマーケットの顧客の購買習慣を考慮して配達を調整します。
  • 全体的な分析によりニーズを特定し、新製品の発売につながりました。
  • WalMart は、1995 年の時点で同社のコンピュータが最大 100 万件の複雑なクエリを処理できるようになって以来、データ マイニングのパイオニアです。

連想分野の例

全米バスケットボール協会 (NBA) もデータマイニングを行っています。チームのゲームリーダーは試合のビデオ録画を分析します。プレーヤーの動きを追跡するソフトウェアである Advanced Scout を使用します。さまざまなチームのコーチは、結果として得られる情報にアクセスできます。これは、現場での戦略をより適切に調整するのに役立ちます。

1995年、ニューヨーク・ニックスとクリーブランド・キャバリアーズの間で行われた試合では、マーク・プライスがディフェンスをしていたとき、ジョン・ウィリアムズがより多くのバスケットを決めたことを数学的に証明することができた。スポーツに適用される統計の先駆者であるアドバンスト・スカウトは、キャバリアーズがシュートの 51% を外していると推定しています。この種の定量化された結論により、コーチやチームは何時間もビデオを見る必要がなくなります。

インターネットの登場で状況は一変

Web 2.0 の出現により、データ マイニングは単純な統計とはまったく異なる次元に到達しました。ソーシャルネットワークや接続されたオブジェクトでは、状況はさらに複雑になります。天文学的な量のデータが収集され、分析されます。企業は消費者を注意深く監視しています。彼らは、プラットフォーム上で何を投稿し、「いいね!」し、共有するかに注意を払っています。

デジタル フットプリントを制限したい人は、Facebook への投稿を避けることができます。 Web閲覧履歴をクリアすることも可能です。一方で、クレジットカードでの購入やビデオ監視への出演の記録を逃れるのは簡単ではありません。政策立案者はそれに関して法律を制定する必要さえあった。 2018 年以降、Google は利害関係者からの簡単なリクエストに応じて、データベースから名前やコンテンツを削除できるようになりました。

データに関する命令には依然として異議が唱えられている

データストレージに関しては Google が優位性を持っているわけではありません。他の企業もこの静脈を悪用している。すべてのサーバーは、プロフェッショナル ユーザーと個人の利益のためにクラウドから再配置されました。企業は、ターゲット顧客をより深く理解するために生の情報をそこに保存します。中には他社に転売する人もいます。多くの政府も自助努力を行っています。これらはすべて関係者の同意なしに行われます。現在、企業は消費者にデジタル フットプリントの制御を維持できる機能を提供しています。

この分野のリーダーである Digi.me は、2009 年から運営されています。このスタートアップは、専用ツールを使用して個人の情報を管理する機能を提供します。彼らは独自の条件でそれらを収集し、共有することができます。 「My Internet」コンセプトにより、自分でデータを販売できます。 Digi.me は、東芝と Lenovo の協力を得て、個別のサーバーを導入しています。健康保険、金融、製薬業界は最も忠実な顧客の 1 つです。

管理目的や採用活動のためのデータの使用

インド政府はデータマイニングを利用して脱税を追跡しています。地方行政は国民に簡素化された支払い方法を提供しています。あまりクリーンではない納税者は、このシステムを回避するのがもう少し困難になるでしょう。フランスも同様のシステムを導入している。 DGFIP チームには、VAT 不正行為を発見することを使命とする統計学者が含まれています。数字とパーセンテージは、特定の分野の活動における戦略を強調しています。

データ マイニング アプリケーションも採用専門家がサービスを提供します。彼らはデジタル ツールを使用して、最も才能のある従業員を見つけます。アイルランド企業は、このアプローチを利用して価値のある候補者を見つけています。彼らは、集められた情報を分析して、優秀な成績を収めた若い卒業生や最も生産性の高い労働者を探します。 LinkedIn は、200 人のフルタイム従業員を専任にすることでこの鉱脈を活用しています。

かなりシンプルな操作でわかりやすい

データ マイニングの主な役割は、リレーショナル データとトランザクション情報の間の接続を確保することです。言い換えれば、顧客に関する情報だけでなく、企業の機能に関する情報も分析されます。統計ベースのソフトウェアが大量に登場しました。これに機械学習とニューラル ネットワークが追加されます。説明:

  • 保存されたデータにより、所定のグループを確立することができます。例: ファーストフード チェーンは消費者の習慣を分析してメニューを提供します。
  • データはクラスターに編成され、顧客の好みに関する結論を導き出すためにグループ化されます。この情報により、市場セグメントまたは類似性が決まります。
  • 場合によっては、データマイニングを通じて製品が関連付けられることがあります。ビールと赤ちゃんのおむつがこれに当てはまります。
  • 連続パターンを使用すると、傾向を予測できます。例: 寝袋を購入する人は、ハイキング シューズにも投資できます。

データサイエンティストが使用できる 5 つの主要なツール

データサイエンス

現在流行しているニューラルネットワークは、非線形解析が可能なプログラムです。この形式の人工知能により、人間の直感に近い予測が可能になります。

決定木も人気があります。ビジネスが進むべき方向性は複雑な影響を及ぼします。分類と回帰 (CART) またはカイ二乗自動インタラクション検出 (CHAID) モデルが最もよく知られています。

最近傍法も検討されています。これには、同様の行動に基づいて傾向について結論を導き出すことが含まれます。法律では、これを法学といいます。

「if-then」ルールは、統計的有意性に基づいた単純なプログラミングに基づいています。これは、複雑な関係を視覚化する場合にも当てはまります。多面的な情報が誰にでも理解できるように図解されています。

遺伝的アルゴリズムは、世界が突然医学に興味を持ち始めたときに始まりました。データサイエンティストは、新型コロナウイルス感染症のパンデミックと戦う取り組みにも貢献しています。彼らは組み合わせ、突然変異、そして自然選択を操作します。

ほぼ変わらない3つのステップ

データマイニングは、活動分野ごとに形式を変えます。一方、実行する手順はほぼ同じです。

  1. 企業はさまざまな方法でデータ ウェアハウスを提供しています。データはローカルサーバーまたはクラウドに保存されます。
  2. ビジネス アナリストは、消費者の行動のロジックを探索することを引き継ぎます。また、ビジネス パートナーに優れた組織を提供するために、運用データをモデル化します。
  3. すべての情報は、管理者が意思決定に使用できるグラフまたはその他の概要の形式をとります。

データマイニングには 3 つの主要なプロパティが固有です

パターンの検出は自動的に行われます。プログラマーの懸命な努力の成果であるアルゴリズムは、消費者の行動のロジックを確立する方法を知っています。すべてのデータ形式が考慮されますが、アプリケーション開発者は特にスコアリング システムを好みます。

結果の予測は、それとは別の分野です。それは商業上の事実だけに限定されるものではありません。アルゴリズムは教育や地理的位置に基づいて購入行動を決定できます。これにより、企業は特定の地域に拠点を置くことができます。

データマイニングの有用性が問われるのは、結果として得られた情報が、たとえ将来であっても使用できなくなった場合のみです。最も近代的な都市には、人口動態を予測できるチームが存在します。これらのコンピュータ エンジニアや統計学者は、地方自治体レベルで実行される活動の指揮を担当する公務員です。

データマイニングテクノロジーは以前よりも利用しやすくなりました

統計の基本を理解できれば誰でもデータ マイニングを始めることができます。現在、モバイルアプリケーションやSaaS型オンラインツールにより、あらゆる種類のユーザーがデータを分析できるようになっている。一部は無料です。数千ユーロから100万ユーロの価格帯のものもあります。課金は使用したテラバイトごとに行われます。たとえば、NCR は最大 1,000 億バイトを処理できます。

ビジネスにとって、50 ギガビットのデータ ブロックを分析できるアプリケーションは良いスタートとなるでしょう。すべては 1 台のコンピューター内に保持されます。次に、大規模な情報バンクを分析するためのインフラストラクチャが必要になります。クエリの複雑さも方程式に加わります。さらに、このレベルではプログラミングの知識が役に立ちます。デジタル構造超並列プロセッサ (MPP) への投資は、多国籍企業にとって不可欠なものになりつつあります。

データ マイニング ソフトウェアはいくつかの形式で利用でき、中小企業を対象としています。商店に加えて、多くのレストランや図書館もこれらのツールを入手するためにお金を払っています。さらに、オープンソース プログラムもあります。 Weka、RapidMiner、Tanagra は最もよく引用されていますが、他にも開発が進められています。これらは関連性と連続したパターンに基づいています。

データマイニングについてこれ以上何を言うことができますか?

近い将来、データ処理を完璧に習得した企業は一定の成長を遂げるでしょう。一方で、消費者はますます監視されていると感じるようになるでしょう。発行者が Cookie を提供しない限り、Web サイトにアクセスすることはほとんど不可能です。肥満が世界の主な死因となっているのも不思議ではありません…

戦略を確立する際にデータ マイニングを使用するエンティティのリスト。

  • ビッグデータ
  • フランス
  • グーグル
  • データマイニング
  • エアロック
  • スプス
  • マイクロソフト
  • IBM
  • ウェカ
  • えっと
  • オラクル
  • アマゾンのウェブサービス
  • Netflix
  • KDD
  • パリ
  • マイクロソフトの分析サービス
  • NCR

A lire également  定義: ランサムウェア