datamining

Definición de minería de datos

En un momento en el que todo es sabido, el Data Mining puede ser una palanca de crecimiento para una empresa. Muchas marcas han basado su estrategia de marketing en esta rama de la ciencia de datos. Más que estadísticas, el análisis de big data está en el origen de las mejores predicciones. Este artículo te lo explica todo.

Minería de datos o minería de datos

Antes de llegar al meollo de la cuestión, tal vez valga la pena hablar de terminología. La expresión Data Mining se puede traducir como minería de datos. Esta versión francesa se acerca al significado en inglés, pero no está clara. De hecho, se trata más bien de analizar bloques de información extraída de silos de inteligencia. La persona que ejerce esta profesión parecería más un científico con bata blanca que un minero untado de carbón.

Aplicable en todos los ámbitos, la minería de datos no está reservada sólo a los profesionales de TI y responsables de marketing. Cualquiera puede aprender a analizar datos sin procesar, transformándolos en información útil. También es posible identificar tendencias, o incluso establecer reglas o patrones. Por ello, muchas empresas están explorando la recopilación de datos para sacar conclusiones y utilizarlas como medio para aumentar su facturación.

Un conjunto de tecnologías para objetivos dispares

No tan reciente, la Minería de Datos existe desde que la humanidad supo realizar investigaciones. Sin embargo, los algoritmos y recursos informáticos disponibles actualmente han facilitado enormemente la tarea del responsable de analizar información masiva. El aprendizaje automático y la inteligencia artificial están ahora en manos de especialistas. Estos expertos siempre pueden contar con estadísticas aplicadas.

Cada entidad tiene su propio objetivo con la Minería de Datos. Algunas empresas apuntan a reducir los costos operativos. Un buen conocimiento de los datos permite organizar mejor la logística en el comercio electrónico. Otras empresas quieren mejorar la productividad con curvas y gráficos. También hay quienes quieren adelantarse al mercado y anticiparse al comportamiento del consumidor.

Esta área se basa en algunos elementos importantes.

La evolución del Data Mining depende de la de la tecnología digital. La aparición de bases de datos y servidores potentes facilita el acceso a la información en bruto. Luego, las herramientas de análisis se volvieron eficientes gracias a una velocidad de cálculo inimaginable. Toda esta carrera tecnológica forma parte de todo un circuito cuyas funciones principales son:

  • Los datos se almacenan en Data Warehouses y se espesan con el tiempo.
  • Los científicos de datos extraen los bloques que necesitan de los servidores.
  • El análisis multidimensional se refiere principalmente a transacciones.
  • Las cifras y la información se resumen en tablas o gráficos.
  • Presentaciones sucintas resumen semanas de recopilación de datos.

La minería es el análisis de enormes cantidades de información.

Los profesionales de minería de datos utilizan diversas herramientas analíticas. Se trata de software y algoritmos hechos a medida. Dicho esto, el cerebro humano también es esencial para categorizar y resumir información. La información es principalmente relacional, pero la extracción de datos no se limita al ámbito del marketing. La salud, la política y muchos otros sectores de actividad podrán beneficiarse del Knowledge Discovery in Data.

Para comprender mejor, estas son las tareas que realizan los algoritmos analíticos:

  • La asociación implica agrupar información idéntica para derivar lógica matemática.
  • El análisis secuencial establece la relación de causa y efecto entre dos eventos.
  • Clasificación: la idea es organizar información heterogénea a la espera de encontrar una correlación entre ellas.
  • Agrupación: se trata principalmente de segmentación del mercado.
  • Los expertos en minería de datos y predicciones son los señores del tiempo en los negocios.

La ciencia transforma los datos en información y conocimiento útiles

Un científico de datos pasa sus días recopilando datos. Le interesan hechos, números y textos potencialmente explotables. Se aceptan todos los formatos. Aquellos que aún no pueden ser explorados esperan pacientemente que aparezca tecnología capaz de traducirlos en información útil. Los datos son principalmente transaccionales u operativos. Algunos proporcionan información sobre las ventas mientras que otros se relacionan con la contabilidad analítica.

Las compilaciones de números, palabras clave o hechos no tienen sentido hasta que se analizan. El experto utiliza medios tecnológicos para manejarlos. Su misión es asociar, clasificar y ordenar con el fin de obtener información comprensible. Por ejemplo, los recibos pueden proporcionar información sobre los más vendidos y los productos que necesitan comunicación. La minería de datos lleva a conclusiones. Se trata de patrones o tendencias que constituyen conocimientos esenciales para el futuro.

Minas de información

Antes del análisis, los datos se almacenan en almacenes de datos. Se trata de hangares virtuales donde se almacenan de forma cruda cifras, hechos y secuencias. Su recolección ya ha requerido importantes recursos tecnológicos. Los códigos de barras y códigos QR están incluidos en la lista. Dicho esto, tanto los formularios como los registros realizados por los propios consumidores suministran los silos de datos.

Las empresas no están obligadas a montar un Data Warehouse para disponer de previsiones. Pueden utilizar datos recopilados por otros. Además de otras empresas, las redes sociales y los buscadores almacenan el más mínimo gesto de los internautas. Los analistas podrán acceder a información sobre un objetivo específico pagando una tarifa financiera. Las cookies ofrecidas en la entrada de los sitios web son robots que recopilan datos.

Múltiples usos para esta ciencia

Aunque la aplicación comercial sigue siendo la más extendida, la minería de datos no se limita al marketing y la distribución masiva.

  • Los investigadores de educación superior lo utilizan todos los días. A veces, los científicos también utilizan aplicaciones analíticas para comprender mejor la genética y la química.
  • Actualmente, la OMS saca conclusiones sobre las vacunas anti-covid19 recopilando informes diarios de los trabajadores sanitarios a partir de tabletas conectadas.
  • Para aquellos que quieran iniciarse en la publicación de sitios web, Web Mining es para ellos. A partir del análisis de las interacciones con los visitantes se pretende identificar patrones de comportamiento. Incluso es posible cuantificar los comentarios.
  • El departamento de recursos humanos puede explorar datos para tratar de comprender al personal. Las estadísticas permiten gestionar mejor las carreras.
  • Las grandes empresas de comercio electrónico confían en la minería de datos para gestionar sus promociones específicas. También ajustan su mix de marketing: precio, comunicación, distribución y el producto en sí.

El análisis de datos proporciona una mejor comprensión del consumo.

En la categoría minorista, muchas cadenas de supermercados estadounidenses confían en Oracle. Este último ofrece herramientas analíticas para aclarar las necesidades de los consumidores en función de las compras. El departamento de adquisiciones sabe exactamente qué productos enviar a qué tiendas. El software muestra que las ventas de cerveza y pañales se disparan los jueves y sábados en algunas ciudades del medio oeste de Estados Unidos.

Los comerciantes concluyeron que:

  • La población repone su suministro de bebidas entre semana para que el fin de semana estén bien frías.
  • Necesitamos acercar el pasillo de la cerveza y el de los pañales para bebés para que sea más fácil para los consumidores.

Mejor colaboración a través de datos transaccionales transparentes

Una cierta transparencia de los datos permitió a WalMart planificar mejor sus reabastecimientos. El gigante minorista se basó en este principio para gestionar la relación con sus proveedores. Unos 3.500 de ellos pudieron acceder a un almacén de datos. Gracias al software desarrollado por Teradata, pudieron monitorizar el stock en tiempo real en 2.900 tiendas repartidas en 6 países.

  • Los proveedores ajustan sus entregas teniendo en cuenta los hábitos de compra de los clientes en cada supermercado.
  • El análisis general les permitió identificar necesidades y condujo al lanzamiento de nuevos productos.
  • WalMart es pionero en minería de datos, ya que sus computadoras eran capaces de manejar hasta un millón de consultas complejas ya en 1995.
A lire également  Definición: ciencia de datos

Un ejemplo en el sector asociativo

La Asociación Nacional de Baloncesto (NBA) también realiza minería de datos. El líder del juego del equipo analiza las grabaciones de vídeo de los partidos. Utiliza Advanced Scout, un software que rastrea los movimientos de los jugadores. Los entrenadores de los diferentes equipos tienen acceso a la información resultante. Esto les ayuda a orquestar mejor las estrategias sobre el terreno.

En 1995, el partido disputado entre los New York Knicks y los Cleveland Cavaliers permitió demostrar matemáticamente que John Williams anota más canastas cuando Mark Price estaba en juego defensivo. Pionero en estadística aplicada al deporte, Advanced Scout estima que los Cavaliers fallan el 51% de los tiros. Este tipo de conclusión cuantificada evita que los entrenadores y equipos vean horas de vídeo.

La situación cambió con la aparición de Internet

La llegada de la Web 2.0 lleva la minería de datos a una dimensión completamente diferente a la de las simples estadísticas. Las cosas se complicarán aún más con las redes sociales y los objetos conectados. Se recopilan y analizan cantidades astronómicas de datos. Las empresas están vigilando de cerca a los consumidores. Prestan atención a lo que publican, les gusta y comparten en las plataformas.

Las publicaciones en Facebook se pueden evitar para aquellos que quieran limitar sus huellas digitales. También es posible borrar su historial de navegación web. Por otro lado, es menos fácil escapar a las grabaciones de compras con tarjeta de crédito o a las apariciones en cámaras de vigilancia. Los formuladores de políticas incluso tuvieron que dictar leyes al respecto. Desde 2018, Google puede eliminar nombres o contenidos de su base de datos mediante una simple solicitud del interesado.

Un dictamen de datos aún controvertido

Google no tiene supremacía en lo que respecta al almacenamiento de datos. Otras empresas están explotando la veta. Todos los servidores reubicados en beneficio de los usuarios profesionales y particulares de la Nube. Las empresas almacenan allí información sin procesar para comprender mejor a sus clientes objetivo. Algunos de ellos los revenden a otras empresas. Muchos gobiernos también se están ayudando a sí mismos. Todo esto se hace sin el consentimiento de los interesados. Ahora, las empresas ofrecen a los consumidores la posibilidad de mantener el control sobre su huella digital.

Líder en su campo, Digi.me, operativa desde 2009. Esta startup ofrece a las personas la posibilidad de gestionar su propia información utilizando herramientas dedicadas. Pueden recopilarlos y compartirlos en sus propios términos. El concepto “Mi Internet” te permite vender tus datos tú mismo. Digi.me implementa servidores individualizados con la ayuda de Toshiba y Lenovo. Los sectores de seguros de salud, finanzas y industria farmacéutica se encuentran entre los clientes más fieles.

El uso de datos con fines administrativos o de contratación

El gobierno indio utiliza la minería de datos para rastrear la evasión fiscal. La administración local ofrece métodos de pago simplificados a los ciudadanos. Los contribuyentes que no sean muy limpios tendrán un poco más de dificultad para eludir el sistema. Francia también está implementando un sistema similar. Los equipos de la DGFIP incluyen estadísticos cuya misión es encontrar fraude en el IVA. Las cifras y porcentajes ponen de relieve las maniobras en determinados sectores de actividad.

Las aplicaciones de minería de datos también están al servicio de los profesionales de la contratación. Utilizan herramientas digitales para localizar a los empleados más talentosos. Las empresas irlandesas confían en este enfoque para encontrar candidatos valiosos. Analizan recopilaciones de información para cazar a los jóvenes titulados con mejores notas o a los trabajadores más productivos. LinkedIn explota esta veta dedicando 200 empleados a tiempo completo.

Operación bastante simple de entender.

La función principal de la minería de datos es garantizar la conexión entre los datos relacionales y la información transaccional. Es decir, se analiza información sobre los clientes, pero también sobre el funcionamiento de una empresa. Ha surgido una enorme cantidad de software basado en estadísticas. A esto se suma el Machine Learning y las redes neuronales. Explicaciones:

  • Los datos almacenados permiten establecer grupos predeterminados. Ejemplo: una cadena de comida rápida analiza los hábitos de consumo para ofrecer menús.
  • Organizados en grupos, los datos se agrupan para sacar una conclusión sobre las preferencias de los clientes. Esta información da como resultado segmentos de mercado o afinidades.
  • En ocasiones, los productos se asocian mediante minería de datos. Este es el caso de la cerveza y los pañales para bebés.
  • Los patrones secuenciales le permiten anticipar tendencias. Ejemplo: una persona que compra un saco de dormir también puede invertir en zapatos para caminar.

5 herramientas principales en manos de los científicos de datos

Ciencia de los datos

Actualmente de moda, las redes neuronales son programas capaces de realizar análisis no lineales. Esta forma de inteligencia artificial permite predicciones cercanas a las intuiciones humanas.

Los árboles de decisión también son populares. Las direcciones que puede tomar una empresa tienen ramificaciones complejas. Los modelos de Clasificación y Regresión (CART), o Detección Automática de Interacción de Chi Cuadrado (CHAID), son los más conocidos.

También se explora el método del vecino más cercano. Esto implica sacar conclusiones sobre tendencias basadas en comportamientos similares. En derecho, esto se llama jurisprudencia.

Las reglas «si-entonces» se basan en una programación simple basada en la significación estadística. Este también es el caso para visualizar relaciones complejas. La información multidimensional se ilustra de una manera que todos puedan entender.

Los algoritmos genéticos despegaron cuando el mundo de repente se interesó por las ciencias médicas. Los científicos de datos también están contribuyendo a los esfuerzos para combatir la pandemia de Covid19. Manipulan combinaciones, mutaciones y selección natural.

3 pasos que siguen siendo casi iguales

La Minería de Datos cambia de forma para cada sector de actividad. Por otro lado, los pasos a seguir son casi los mismos.

  1. Las empresas aprovisionan almacenes de datos de diversas formas. Los datos se almacenan en servidores locales o en la nube.
  2. Los analistas de negocios toman el control buscando la lógica del comportamiento del consumidor. También modelan datos operativos para ofrecer mejores organizaciones a los socios comerciales.
  3. Toda la información toma la forma de un gráfico u otro resumen que los gerentes pueden utilizar en su toma de decisiones.

3 propiedades principales son inherentes a la exploración de datos

El descubrimiento de patrones se realiza automáticamente. Fruto del arduo trabajo de los programadores, los algoritmos saben cómo establecer una lógica para el comportamiento del consumidor. Se tienen en cuenta todos los formatos de datos, pero los desarrolladores de aplicaciones prefieren especialmente un sistema de puntuación.

La predicción de resultados es otra rama propia. No se limita únicamente a hechos comerciales. Los algoritmos pueden determinar el comportamiento de compra en función de la educación o la ubicación geográfica. Esto permite que las empresas se establezcan en barrios específicos.

La utilidad del Data Mining sólo se pone en duda cuando la información resultante no es utilizable, ni siquiera en el futuro. Las ciudades más modernas cuentan con equipos capaces de anticipar los movimientos demográficos. Estos ingenieros informáticos o estadísticos son los funcionarios encargados de dirigir las actuaciones a realizar en el ámbito municipal.

Las tecnologías de minería de datos son más accesibles que antes

Cualquiera que pueda comprender los conceptos básicos de la estadística podrá iniciarse en la minería de datos. Actualmente, las aplicaciones móviles y herramientas online tipo SaaS permiten a usuarios de todo tipo analizar datos. Algunos de ellos son gratuitos. Otros tienen precios que van desde unos pocos miles hasta un millón de euros. La facturación se realiza por terabyte utilizado. Por ejemplo, NCR puede manejar hasta 100 mil millones de billones de bytes.

Para una empresa, una aplicación capaz de analizar un bloque de datos de 50 gigabits sería un buen comienzo. Todo se guarda en un solo ordenador. Entonces, necesitamos una infraestructura para analizar bancos de información más grandes. La complejidad de la consulta también entra en la ecuación. Además, los conocimientos de programación son útiles en este nivel. La inversión en estructuras digitales Massiely Parallel Processors (MPP) se está volviendo imprescindible para las multinacionales.

Disponible en varias formas, el software de minería de datos está dirigido a las PYME. Además de los comerciantes, muchos restaurantes y bibliotecas también han pagado dinero para adquirir estas herramientas. Además, existen programas de código abierto. Weka, RapidMiner y Tanagra se encuentran entre los más citados, pero otros están a punto de desarrollarse. Se basan en asociaciones y patrones secuenciales.

¿Qué más puedo decir sobre la minería de datos?

En un futuro próximo, las empresas que dominen a la perfección el manejo de datos disfrutarán de un cierto crecimiento. Por otro lado, los consumidores se sentirán cada vez más observados. Es casi imposible visitar un sitio web sin que el editor ofrezca una cookie. No es de extrañar que la obesidad se esté convirtiendo en la principal causa de muerte en el mundo…

Lista de entidades que utilizan la minería de datos para establecer sus estrategias.

  • Grandes datos
  • Francia
  • Google
  • Procesamiento de datos
  • Burbuja de aire
  • spss
  • microsoft
  • IBM
  • Weka
  • Erp
  • Oráculo
  • servicios web de amazon
  • netflix
  • kdd
  • París
  • Servicios de análisis de Microsoft.
  • RNC