datamining

데이터 마이닝 정의

모든 것이 알려진 시대에 데이터 마이닝은 회사의 성장 수단이 될 수 있습니다. 많은 브랜드가 이 데이터 과학 분야를 기반으로 마케팅 전략을 수립해 왔습니다. 통계 그 이상을 대표하는 빅데이터 분석은 최선의 예측의 원천입니다. 이 기사에서는 모든 것을 설명합니다.

데이터 마이닝 또는 데이터 마이닝

문제의 핵심에 도달하기 전에 용어에 대해 이야기하는 것이 좋습니다. 데이터 마이닝이라는 표현은 데이터 마이닝으로 번역될 수 있습니다. 이 프랑스어 버전은 영어 의미에 가깝지만 불분명합니다. 실제로 이는 인텔리전스 사일로에서 추출된 정보 블록을 분석하는 것에 관한 것입니다. 이 직업을 수행하는 사람은 석탄을 바른 광부라기보다는 흰 가운을 입은 과학자처럼 보일 것입니다.

모든 영역에 적용할 수 있는 데이터 마이닝은 IT 전문가와 마케팅 관리자만을 위한 것이 아닙니다. 누구나 원시 데이터를 분석하여 유용한 정보로 변환하는 방법을 배울 수 있습니다. 추세를 파악하거나 규칙이나 패턴을 설정하는 것도 가능합니다. 따라서 많은 기업에서는 결론을 도출하고 매출을 늘리기 위한 수단으로 사용하기 위해 데이터 편집을 탐색하고 있습니다.

서로 다른 목표를 위한 일련의 기술

최근에는 인류가 연구 수행 방법을 알고부터 데이터 마이닝이 존재했습니다. 그러나 현재 사용 가능한 알고리즘과 컴퓨터 리소스는 대량 정보 분석을 담당하는 사람의 작업을 크게 촉진했습니다. 머신러닝과 인공지능은 이제 전문가의 손에 달려있습니다. 이러한 전문가는 항상 응용 통계를 신뢰할 수 있습니다.

각 엔터티에는 데이터 마이닝에 대한 고유한 목표가 있습니다. 일부 회사는 운영 비용 절감을 목표로 합니다. 데이터에 대한 좋은 지식은 전자상거래에서 물류를 보다 효율적으로 구성하는 것을 가능하게 합니다. 다른 회사에서는 곡선과 그래프를 사용하여 생산성을 향상시키고 싶어합니다. 시장보다 앞서 나가고 소비자 행동을 예측하려는 사람들도 있습니다.

이 영역은 몇 가지 주요 요소를 기반으로 합니다.

데이터 마이닝의 발전은 디지털 기술의 발전에 달려 있습니다. 데이터베이스와 강력한 서버의 출현으로 원시 정보에 대한 액세스가 쉬워졌습니다. 그러자 상상을 초월하는 계산 속도 덕분에 분석 도구가 효율적이 되었습니다. 이 전체 기술 경쟁은 주요 기능이 다음과 같은 전체 회로의 일부입니다.

  • 데이터는 데이터 웨어하우스에 저장되며 시간이 지남에 따라 두꺼워집니다.
  • 데이터 과학자는 서버에서 필요한 블록을 추출합니다.
  • 다차원 분석은 주로 거래와 관련됩니다.
  • 그림과 정보는 표나 그래프로 요약되어 있습니다.
  • 몇 주간의 데이터 수집을 간결한 프레젠테이션으로 요약합니다.

마이닝은 엄청난 양의 정보를 분석하는 것입니다.

데이터 마이닝 전문가는 다양한 분석 도구를 사용합니다. 이는 맞춤형 소프트웨어와 알고리즘입니다. 즉, 인간의 두뇌는 정보를 분류하고 요약하는 데에도 필수적입니다. 정보는 주로 관계형이지만 데이터 마이닝은 마케팅 영역에만 국한되지 않습니다. 건강, 정치 및 기타 다양한 활동 부문은 데이터 지식 발견의 혜택을 누릴 수 있습니다.

더 잘 이해하기 위해 분석 알고리즘이 수행하는 작업은 다음과 같습니다.

  • 연관에는 동일한 정보를 그룹화하여 수학적 논리를 도출하는 작업이 포함됩니다.
  • 순차적 분석을 통해 두 사건 간의 원인과 결과 관계를 확립합니다.
  • 분류: 이질적인 정보 사이의 상관관계를 찾기 위해 기다리는 동안 이질적인 정보를 정리하는 것이 아이디어입니다.
  • 클러스터링: 이는 주로 시장 세분화입니다.
  • 예측, 데이터 마이닝 전문가는 비즈니스의 기상 전문가입니다.

데이터를 유용한 정보와 지식으로 변환하는 과학

데이터 과학자는 데이터를 수집하는 데 하루를 보냅니다. 그는 잠재적으로 악용될 수 있는 사실, 숫자 및 텍스트에 관심이 있습니다. 모든 형식이 허용됩니다. 아직 탐색할 수 없는 것들은 이를 유용한 정보로 변환할 수 있는 기술이 나타나기를 인내심을 갖고 기다리고 있습니다. 데이터는 주로 트랜잭션 또는 운영용입니다. 일부는 판매에 대한 정보를 제공하고 다른 일부는 분석 회계와 관련됩니다.

숫자, 키워드 또는 사실의 편집은 분석되기 전까지는 의미가 없습니다. 전문가는 이를 처리하기 위해 기술적 수단을 사용합니다. 그 임무는 이해할 수 있는 정보를 얻기 위해 연관시키고, 분류하고, 주문하는 것입니다. 예를 들어 영수증을 통해 베스트셀러, 커뮤니케이션이 필요한 제품에 대한 정보를 제공할 수 있습니다. 데이터 마이닝은 결론을 이끌어냅니다. 이는 미래를 위한 필수 지식을 구성하는 패턴이나 추세입니다.

정보의 광산

분석하기 전에 데이터는 데이터 웨어하우스에 저장됩니다. 이는 수치, 사실 및 시퀀스가 ​​원시 방식으로 저장되는 가상 격납고입니다. 그들의 컬렉션에는 이미 상당한 기술적 자원이 필요했습니다. 바코드와 QR 코드가 목록에 포함되어 있습니다. 즉, 소비자가 직접 작성한 양식과 등록이 데이터 사일로를 제공합니다.

회사는 예측을 위해 데이터 웨어하우스를 설정할 필요가 없습니다. 그들은 다른 사람들이 수집한 데이터를 사용할 수 있습니다. 다른 회사 외에도 소셜 네트워크와 검색 엔진에는 인터넷 사용자의 사소한 동작이 저장됩니다. 분석가는 금융 수수료를 지불함으로써 특정 대상에 대한 정보에 접근할 수 있습니다. 웹사이트 입구에 제공되는 쿠키는 데이터를 수집하는 로봇입니다.

이 과학의 다양한 용도

상업용 응용 프로그램이 가장 널리 퍼져 있지만 데이터 마이닝은 마케팅 및 대량 배포에만 국한되지 않습니다.

  • 고등 교육 연구자들은 매일 그것을 사용합니다. 과학자들은 때때로 유전학과 화학을 더 잘 이해하기 위해 분석 응용 프로그램을 사용합니다.
  • 현재 WHO는 연결된 태블릿을 통해 의료 종사자들의 일일 보고서를 수집하여 코로나19 백신에 대한 결론을 내립니다.
  • 웹사이트 게시를 시작하려는 사람들에게는 웹 마이닝이 적합합니다. 방문객과의 상호작용 분석을 바탕으로 행동 패턴을 파악하는 것을 목표로 합니다. 발언을 수량화하는 것도 가능합니다.
  • 인사부는 직원을 이해하기 위해 데이터를 탐색할 수 있습니다. 통계를 사용하면 경력을 더 잘 관리할 수 있습니다.
  • 대규모 전자 상거래 회사는 데이터 마이닝을 사용하여 타겟 프로모션을 관리합니다. 또한 가격, 커뮤니케이션, 유통, 제품 자체 등 마케팅 믹스를 조정합니다.

데이터 분석을 통해 소비에 대한 더 나은 이해 제공

소매 부문에서는 많은 미국 식료품 체인이 Oracle에 의존하고 있습니다. 후자는 구매를 기반으로 소비자 요구를 명확히 하는 분석 도구를 제공합니다. 조달 부서는 어떤 제품을 어느 매장에 보낼지 정확히 알고 있습니다. 소프트웨어에 따르면 미국 중서부의 일부 도시에서는 목요일과 토요일에 맥주와 기저귀 판매량이 급증하는 것으로 나타났습니다.

상인들은 다음과 같이 결론을 내렸습니다.

  • 인구는 주말에 매우 추울 정도로 주중에 음료수를 보충합니다.
  • 소비자가 더 쉽게 이용할 수 있도록 맥주와 아기 기저귀 통로를 더 가깝게 만들어야합니다.

투명한 거래 데이터를 통한 더 나은 협업

데이터의 투명성 덕분에 WalMart는 재입고 계획을 더 잘 세울 수 있었습니다. 거대 소매업체는 이 원칙에 따라 공급업체와의 관계를 관리했습니다. 그 중 약 3,500명이 데이터 웨어하우스에 액세스할 수 있었습니다. Teradata가 개발한 소프트웨어 덕분에 6개국 2,900개 매장의 재고를 실시간으로 모니터링할 수 있었습니다.

  • 공급업체는 각 슈퍼마켓 고객의 구매 습관을 고려하여 배송을 조정합니다.
  • 전반적인 분석을 통해 요구사항을 파악하고 신제품 출시로 이어졌습니다.
  • WalMart는 1995년 초 컴퓨터가 최대 백만 개의 복잡한 쿼리를 처리할 수 있었던 이래로 데이터 마이닝 분야의 선구자입니다.
A lire également  실용적: 정의

연관 부문의 예

NBA(National Basketball Association)도 데이터 마이닝을 수행합니다. 팀 게임 리더는 경기 영상 녹화를 분석합니다. 플레이어의 움직임을 추적하는 소프트웨어인 Advanced Scout를 사용합니다. 다양한 팀의 코치는 결과 정보에 접근할 수 있습니다. 이는 현장에서 전략을 더 효과적으로 조율하는 데 도움이 됩니다.

1995년 New York Knicks와 Cleveland Cavaliers의 경기는 Mark Price가 수비 플레이에 있을 때 John Williams가 더 많은 골을 넣었다는 것을 수학적으로 입증하는 것을 가능하게 했습니다. 스포츠에 적용되는 통계의 선구자인 Advanced Scout는 Cavaliers가 슛의 51%를 놓치는 것으로 추정합니다. 이러한 종류의 정량화된 결론을 통해 코치와 팀은 몇 시간 동안 비디오를 시청하지 않아도 됩니다.

인터넷이 등장하면서 상황이 달라졌다

웹 2.0의 출현으로 데이터 마이닝은 단순한 통계와는 완전히 다른 차원으로 발전했습니다. 소셜 네트워크와 연결된 개체로 인해 상황은 더욱 복잡해집니다. 천문학적인 양의 데이터가 수집되고 분석됩니다. 기업들은 소비자를 면밀히 모니터링하고 있습니다. 그들은 플랫폼에 게시하고 좋아요를 누르고 공유하는 내용에 주의를 기울입니다.

디지털 발자국을 제한하려는 사람들은 Facebook 게시물을 피할 수 있습니다. 웹 검색 기록을 지울 수도 있습니다. 반면, 신용카드 구매 기록이나 영상감시 모습 등은 탈출하기가 쉽지 않다. 정책 입안자들은 이에 관한 법률을 제정해야 했습니다. 2018년부터 Google은 이해관계자의 간단한 요청에 따라 데이터베이스에서 이름이나 콘텐츠를 삭제할 수 있었습니다.

여전히 논쟁의 여지가 있는 데이터 규정

Google은 데이터 저장과 관련하여 우위를 점하지 않습니다. 다른 회사들은 정맥을 이용하고 있습니다. 전문 사용자와 개인의 이익을 위해 재배치된 모든 서버는 클라우드를 형성합니다. 기업은 대상 고객을 더 잘 이해하기 위해 원시 정보를 여기에 저장합니다. 그들 중 일부는 다른 회사에 재판매합니다. 많은 정부도 스스로를 돕고 있습니다. 이 모든 것은 관계자의 동의 없이 이루어집니다. 이제 기업은 소비자에게 디지털 공간에 대한 통제권을 유지할 수 있는 기능을 제공하고 있습니다.

해당 분야의 리더인 Digi.me는 2009년부터 운영되었습니다. 이 스타트업은 개인에게 전용 도구를 사용하여 자신의 정보를 관리할 수 있는 기능을 제공합니다. 그들은 자신의 조건에 따라 정보를 수집하고 공유할 수 있습니다. “내 인터넷” 개념을 사용하면 데이터를 직접 판매할 수 있습니다. Digi.me는 Toshiba와 Lenovo의 도움을 받아 개별화된 서버를 배포합니다. 건강보험, 금융, 제약 산업 부문은 가장 충성도가 높은 고객 중 하나입니다.

행정 목적 또는 채용을 위한 데이터 사용

인도 정부는 탈세를 추적하기 위해 데이터 마이닝을 사용합니다. 지방자치단체에서는 시민들에게 간편결제수단을 제공하고 있습니다. 그다지 깨끗하지 않은 납세자는 시스템을 우회하는 데 조금 더 어려움을 겪을 것입니다. 프랑스도 비슷한 시스템을 배치하고 있다. DGFIP 팀에는 VAT 사기를 찾아내는 임무를 맡은 통계학자가 포함되어 있습니다. 수치와 백분율은 특정 활동 부문의 전략을 강조합니다.

데이터 마이닝 애플리케이션은 채용 전문가에게도 제공됩니다. 그들은 디지털 도구를 사용하여 가장 재능 있는 직원을 찾습니다. 아일랜드 기업은 가치 있는 후보자를 찾기 위해 이러한 접근 방식을 사용합니다. 그들은 수집된 정보를 분석하여 성적이 가장 좋은 젊은 졸업생이나 가장 생산적인 직원을 찾습니다. LinkedIn은 200명의 정규 직원을 고용하여 이러한 맥락을 활용합니다.

이해하기 매우 간단한 작동

데이터 마이닝의 주요 역할은 관계형 데이터와 트랜잭션 정보 간의 연결을 보장하는 것입니다. 즉, 고객에 대한 정보뿐만 아니라 기업의 기능에 대한 정보도 분석됩니다. 엄청난 양의 통계 기반 소프트웨어가 등장했습니다. 여기에 머신러닝과 신경망이 추가되었습니다. 설명:

  • 저장된 데이터를 통해 미리 결정된 그룹을 설정할 수 있습니다. 예: 패스트푸드 체인점은 소비자 습관을 분석하여 메뉴를 제공합니다.
  • 클러스터로 구성된 데이터는 고객 선호도에 대한 결론을 도출하기 위해 그룹화됩니다. 이 정보를 통해 시장 부문이나 유사성이 형성됩니다.
  • 때로는 데이터 마이닝을 통해 제품이 연결되기도 합니다. 맥주와 아기 기저귀의 경우입니다.
  • 순차적 패턴을 사용하면 추세를 예측할 수 있습니다. 예: 침낭을 구입하는 사람은 등산화에도 투자할 수 있습니다.

데이터 과학자가 사용하는 5가지 주요 도구

데이터 과학

현재 유행하는 신경망은 비선형 분석이 가능한 프로그램입니다. 이런 형태의 인공지능은 인간의 직관에 가까운 예측을 가능하게 한다.

의사결정나무도 인기가 있습니다. 비즈니스가 취할 수 있는 방향은 복잡한 결과를 낳습니다. 분류 및 회귀(CART) 또는 카이 제곱 자동 상호 작용 탐지(CHAID) 모델이 가장 잘 알려져 있습니다.

Nearest Neighbor 방법도 탐구됩니다. 여기에는 유사한 행동을 기반으로 추세에 대한 결론을 도출하는 것이 포함됩니다. 법에서는 이를 법리학(jurisprudence)이라고 합니다.

“If-then” 규칙은 통계적 유의성을 기반으로 한 간단한 프로그래밍을 기반으로 합니다. 이는 복잡한 관계를 시각화하는 경우에도 마찬가지입니다. 다차원 정보는 누구나 이해할 수 있는 방식으로 설명됩니다.

세계가 갑자기 의학에 관심을 가지게 되면서 유전 알고리즘이 주목을 받게 되었습니다. 데이터 과학자들은 또한 코로나19 팬데믹을 퇴치하기 위한 노력에도 기여하고 있습니다. 그들은 조합, 돌연변이 및 자연 선택을 조작합니다.

거의 동일하게 유지되는 3단계

데이터 마이닝은 각 활동 부문에 대해 형태를 변경합니다. 반면에 따라야 할 단계는 거의 동일합니다.

  1. 회사는 다양한 방법으로 데이터 웨어하우스를 프로비저닝합니다. 데이터는 로컬 서버나 클라우드에 저장됩니다.
  2. 비즈니스 분석가는 소비자 행동의 논리를 찾는 일을 맡습니다. 또한 비즈니스 파트너에게 더 나은 조직을 제공하기 위해 운영 데이터를 모델링합니다.
  3. 모든 정보는 관리자가 의사 결정에 사용할 수 있는 그래프 또는 기타 요약의 형태로 제공됩니다.

데이터 마이닝에는 3가지 주요 속성이 내재되어 있습니다.

패턴 검색은 자동으로 수행됩니다. 프로그래머의 노력의 결실인 알고리즘은 소비자 행동에 대한 논리를 설정하는 방법을 알고 있습니다. 모든 데이터 형식이 고려되지만 애플리케이션 개발자는 특히 채점 시스템을 선호합니다.

결과 예측은 그 자체의 또 다른 분야입니다. 이는 상업적인 사실에만 국한되지 않습니다. 알고리즘은 교육이나 지리적 위치를 기반으로 구매 행동을 결정할 수 있습니다. 이를 통해 기업은 특정 지역에 자리를 잡을 수 있습니다.

데이터 마이닝의 유용성은 결과 정보를 미래에도 사용할 수 없는 경우에만 의문이 제기됩니다. 가장 현대적인 도시에는 인구통계학적 변화를 예측할 수 있는 팀이 있습니다. 이러한 컴퓨터 엔지니어 또는 통계학자는 지방자치단체 차원에서 수행할 작업을 조종하는 책임을 맡은 공무원입니다.

데이터 마이닝 기술은 이전보다 더 쉽게 접근할 수 있습니다.

통계의 기본을 이해할 수 있는 사람이라면 누구나 데이터 마이닝을 시작할 수 있습니다. 현재 모바일 애플리케이션과 SaaS형 온라인 도구를 통해 모든 종류의 사용자가 데이터를 분석할 수 있습니다. 그들 중 일부는 무료입니다. 다른 곳의 가격은 수천 유로에서 백만 유로에 이릅니다. 요금은 사용한 테라바이트 단위로 청구됩니다. 예를 들어 NCR은 최대 1000억 바이트를 처리할 수 있습니다.

기업의 경우 50기가비트 데이터 블록을 분석할 수 있는 애플리케이션이 좋은 시작이 될 것입니다. 모든 것이 단일 컴퓨터에 보관됩니다. 그런 다음 더 큰 규모의 정보 뱅크를 분석할 수 있는 인프라가 필요합니다. 쿼리 복잡성도 방정식에 포함됩니다. 또한 이 수준에서는 프로그래밍 지식이 유용합니다. 디지털 구조에 대한 투자 MPP(Massiely Parallel Processors)는 다국적 기업에 필수적이 되고 있습니다.

여러 형태로 제공되는 데이터 마이닝 소프트웨어는 중소기업을 대상으로 합니다. 상인 외에도 많은 레스토랑과 도서관에서도 이러한 도구를 구입하기 위해 돈을 지불했습니다. 게다가 오픈소스 프로그램도 있습니다. Weka, RapidMiner 및 Tanagra가 가장 많이 인용되었지만 다른 것들도 곧 개발될 예정입니다. 이는 연관성과 순차 패턴을 기반으로 합니다.

데이터 마이닝에 대해 더 말할 수 있는 것은 무엇입니까?

가까운 미래에 데이터 처리를 완벽하게 마스터하는 기업은 확실한 성장을 누릴 것입니다. 반면에 소비자는 점점 더 많은 관찰을 받게 될 것입니다. 쿠키를 제공하는 게시자 없이 웹사이트를 방문하는 것은 거의 불가능합니다. 비만이 전 세계 사망 원인 1위가 된 것은 당연합니다.

전략 수립에 데이터 마이닝을 사용하는 기업 목록입니다.

  • 빅 데이터
  • 프랑스
  • Google
  • 데이터 수집
  • 에어록
  • Spss
  • 마이크로소프트
  • IBM
  • 웨카
  • 어프
  • 신탁
  • 아마존 웹 서비스
  • 넷플릭스
  • Kdd
  • 파리
  • 마이크로소프트 분석 서비스
  • NCR