Una familia va de compras a una plaza comercial; todos tienen gustos y preferencias muy distintas, por lo que deciden separarse, pero antes de eso, acuerdan que en dos horas se verán en la cafetería para comer juntos. Si la mamá se dirigió a la boutique de su preferencia, los niños al local de videojuegos, y el padre de familia a la tienda de deportes, ¿es posible que, a través de la huella que dejan los datos que generaron en sus transacciones, se identifique que son una familia y luego enviarles una invitación de manera conjunta?, ¿es posible recopilar información para tomar decisiones y promocionar productos a cada uno de forma individual? y ¿es factible verlos como un todo y, además, de manera individual?
La huella digital que cada uno de los integrantes va dejando durante su recorrido por la plaza comercial, permite que, a través de la minería de datos, el proceso arroje a qué lugares acudieron y a cuántos, qué compraron en cada uno, cuánto gastaron, qué marcas prefirieron e incluso, en el caso de que sean clientes frecuentes y lleven años visitando el lugar. De ahí que, es posible que más de una marca y/o empresa de ese centro comercial haya logrado fidelizar sus preferencias sin que ellos lo hayan detectado.
El reto de recopilar dicha información, extraerla para su filtrado, transformación, carga y finalmente su interpretación, es un proceso que requiere de la minería de datos, cuyo campo es muy amplio y puede ser tan poderoso que la información que arroja no solo sirve como base para las campañas de marketing que retienen y fidelizan a una persona cliente. Con esa información, incluso es posible conocer y analizar toda un área geográfica a través de las transacciones de las personas que frecuentan un mismo sitio y que tienen características comunes que los convierten en una muestra representativa de una población, lo cual seguramente sería útil para más de una investigación de mercado.
Los procesos que involucra la minería de datos pueden variar dependiendo de la persona autora que los aborde, ya que cada una puede hacerlo desde paradigmas distintos. Sin embargo, muchas de las personas expertas en el tema coinciden en los que se presentan aquí para tu aprendizaje.
Minería de datos
La ciencia de datos y el Big Data se han vuelto vitales para el marketing digital, ya que cada empresa enfrenta el reto de desarrollar procesos que permitan fundamentar la toma de decisiones en información precisa.
Estos procesos son complejos y se fundamentan en la minería de datos o data mining, que se define como “el procedimiento de extraer información de grandes conjuntos de datos” (Ramos, 2021). La minería de datos no se limita a la extracción de los datos, sino que abarca otros procesos, como la recopilación, filtrado, transformación, evaluación, carga e interpretación de datos y que se tratarán a lo largo de este tema.
Como ejemplo, piensa en los retos que tendría que enfrentar una persona, dueña de una ferretería con 10 sucursales en el Estado de Jalisco y que desea lanzar una campaña de marketing para incrementar las ventas en 10 % durante el año. ¿Qué es lo primero que tiene que hacer para obtener información suficiente y procesarla, analizarla y basar su campaña en los resultados de ese proceso? Seguramente se enfrentará a la problemática de cómo recopilar la información en sus sucursales, tal vez tendrá que implementar un sistema en sus puntos de venta, etc. Todas estas decisiones y cuestionamientos se vuelven relevantes a la hora de plantear estrategias de mercadotecnia que permitan llegar a una meta de ventas.
Figura 1. Proceso de minería de datos.
Recopilación de datos
Las fuentes de obtención de los datos para llevar a cabo la minería pueden ser muy diversas, desde algo muy simple como la data generada en un punto de venta o tienda utilizando un sistema especializado, hasta algo más complejo como la medición del tráfico de personas en un centro comercial, para lo cual se requeriría colocar dispositivos específicos, como cámaras de video, software especializado para que analice imágenes, entre otras tecnologías.
La recopilación de los datos puede realizarse de diversas maneras y normalmente sucede en el punto de venta a través de un sistema de planificación de recursos empresariales o ERP (Enterprise Resource Planning). Oracle (2023) lo define como sistemas que las empresas adquieren para gestionar actividades cotidianas como ventas, compras, producción, entre otras. Estos sistemas se han vuelto imprescindibles para resolver múltiples retos dentro de las organizaciones. Además, este tipo de software suele contar con una solución de almacenamiento de información que permite hacer la extracción posterior de los datos que serán necesarios para el análisis.
¿Cuáles son los problemas con los que puedes encontrarte en este proceso? Es común que, al extraer los datos, estos aparezcan con inconsistencias, como celdas en blanco, falta de acentos, falta de reconocimiento de caracteres, además de redundancia e incoherencias derivadas de la falta de depuración. Por lo tanto, es relevante que al final de este proceso se tenga una adecuada depuración de los datos para continuar con el análisis.
La creación de metodologías y tecnologías que te permitan recopilar la información de una forma veraz y completamente segura serán fundamentales para la minería de datos.
A continuación, se incluyen algunas de las herramientas necesarias para el análisis de la información en este proceso:
Estas herramientas de análisis se requerirán en función de los tipos de usuarios, como los equipos de analistas, ejecutivos, de investigación, entre otros.
Una de las tecnologías más empleadas en el análisis de la información es la herramienta OLAP (On-Line Analytical Processing), la cual realiza el procesamiento analítico en línea y “es una tecnología que se usa para organizar bases de datos empresariales grandes y admitir inteligencia empresarial” (Microsoft, s.f.).
Una vez que esta tecnología recopila y almacena la información, la divide en cubos, que son conjuntos de información categorizados de diversas formas, como por zona, edades, monto de compra, entre otros. Esto permite analizar con mayor facilidad un volumen tan grande de información y visualizarla desde diversas perspectivas o dimensiones.
En este tipo de herramientas, es posible crear informes que consoliden o totalicen (roll-up), que profundicen o vayan al detalle (drill-down) o que muestren un corte o un dato específico que se esté buscando (slice). También es posible que analicen el cruce de dos dimensiones, como las ventas de un mes (dice) y que giren el cubo (pivot) para obtener una vista diferente a partir de la misma información (Computer Weekly, 2021).
Figura 2. Procesamiento analítico en línea.
Fuente: Computer Weekly. (2021). OLAP o procesamiento analítico en línea. Recuperado de https://www.computerweekly.com/es/definicion/OLAP-o-procesamiento-analitico-en-linea
Es importante aclarar la diferencia entre realizar un análisis mediante OLAP y el concepto de minería de datos. La tecnología OLAP es una herramienta específica, mientras la minería de datos es un conjunto de procesos, tecnologías y herramientas.
Para ejemplificar el concepto, imagina que tu compañía quiere analizar las entidades federativas o municipios en los que vende sus productos en todas sus gamas y quiere hacer énfasis en aquellos que representan una parte importante de sus ventas, considerando un mínimo de 30 % de participación. El propósito es reconocer esa preferencia y premiar a sus consumidores. La recolección adecuada de los datos permitirá cumplir con los objetivos de la empresa.
Filtrado de datos
Una vez terminada la recopilación de datos, se procede a la selección adecuada de los mismos. Esto quiere decir que los datos deben estar en las mejores condiciones para su análisis. Durante la fase de recopilación es común encontrar errores de captura, celdas en blanco, datos no válidos e inconsistencias en la homogeneidad de la información. Por lo tanto, es importante realizar procedimientos que permitan homologar las bases de datos para que la información sea verídica y resolver el reto de la v de veracidad (las cinco V), ya que no hacerlo impediría llevar a cabo un análisis adecuado de los datos. Es importante señalar que muchos de los problemas a los que se puede enfrentar la analítica de datos se debe a la inconsistencia que los mismos datos pueden tener y a la falta de veracidad de la información.
Seguramente, al usar una hoja de cálculo de tu preferencia, has aplicado un filtro. ¿Cuál es su principal función o para qué lo usas normalmente? Gracias a ese filtro, puedes resumir la información y presentarla de acuerdo con ciertas necesidades. Los filtros permiten excluir datos no pertinentes de una tabla con la finalidad de concentrar subconjuntos de datos que cumplen con un criterio y así poder revisar, de forma específica, los registros que se quieren analizar.
Imagina que tienes registrados 200,000 datos de las ventas de una tienda de autoservicio y corresponden a las transacciones de una semana. De ahí que quieres analizar la información para desarrollar tus campañas de marketing de fin de mes. ¿Cómo filtrarías tanta información para tomar decisiones? Seguramente excluirás datos que no te sean relevantes y te concentrarás en el género del consumidor, su edad, el punto de venta y/o área departamental, entre otros factores. Si utilizas una hoja de cálculo, bastará con aplicar un filtro, y si se trata de usar un lenguaje de programación, usarás la instrucción adecuada para filtrar la información correspondiente.
Para realizar el filtrado de información, quienes trabajan en ciencias de datos utilizan herramientas muy variadas, como poderosas hojas de cálculo de Excel que, aunque tiene un límite de registros de alrededor de un millón, cuenta con filtros avanzados, filtrado de datos y tablas pivote que pueden manipular la información desde diferentes perspectivas o dimensiones. También existen herramientas mucho más sofisticadas como ACL (Access Control List) para Windows, que es más aplicable para un contexto de programación, donde consultoras especializadas realizan el filtrado de la información y brindan reportes personalizados a las empresas que los contactan.
En el portal de la marca Galvanize (2021), una importante empresa de software, ubicada en Estados Unidos y que cuenta con una herramienta analítica de datos llamada Analytics 14.1 para Windows, se explica la forma de clasificar los filtros:
Figura 3. Clasificación de filtros.
Analizando los conceptos anteriores, puedes comprender la importancia de la filtración de datos para la toma de decisiones. El filtrado es un proceso fundamental para la minería de datos y es una herramienta para los científicos de datos y para el mercadólogo digital, ya que puede ayudar a analizar, con objetivos específicos, grandes volúmenes de información.
Transformación de datos
La transformación de datos puede comprenderse como el proceso de convertir datos o información de un formato a otro. Por lo general, se tiene un sistema fuente y un sistema destino.
Existen ejemplos cotidianos para introducir este concepto:
Imagina que tienes un documento en Word para Mac y necesitas pasarlo a Word para Windows; es necesario que haya una transformación para que la información no pierda su formato original. Otro ejemplo es que tengas una imagen con un formato distinto al que necesitas. Un caso más es que cuentes con 1500 datos en Excel versión 365 y quieras hacer la lectura de ese archivo en Excel 2016. Estos son ejemplos básicos de transformación de datos.
En la práctica de la ciencia de datos, la transformación de los datos implica el uso de software especial, que hace una lectura de los datos y es capaz de transformarlos según la necesidad deseada.
La transformación de datos regularmente implica dos fases clave:
Figura 4. Fases de la transformación de datos.
Generalmente la transformación de datos incluye una gama de actividades y consisten en lo siguiente:
Según Kantardzic (2020), existen tipos de transformaciones de datos que pueden mejorar los resultados en la minería de datos. La selección de técnicas dependerá de los tipos, cantidad o volumen de datos, así como de las características generales.
Una de las técnicas más utilizadas es la normalización, que consiste en convertir los datos empleados para reducir la redundancia, evitar incoherencias y realizar cambios en función de las necesidades específicas.
Utilizando técnicas de procesamiento de datos, se puede llegar a homologar la data, por ejemplo, si tenemos el dato de género y originalmente se capturó en formato de texto, sin aplicar validación, puede provocar diferencias, como usar “mujer” o “femenino” indistintamente. Lo anterior tendrá que corregirse o tener almacenado un dato que no corresponde dentro de una tabla, como el sueldo del vendedor en la tabla de clientes. También incluye la transformación de información cualitativa a cuantitativa, por ejemplo, usar un código numérico en lugar de una palabra para guardar el estado civil puede facilitar el procesamiento y optimizar el espacio necesario para almacenar.
Carga de datos
Es posible comprender la carga de datos en la minería de datos, como aquel proceso en donde, a través de un archivo vacío o “plano” de carga, se realiza el almacenamiento de la información en una biblioteca o lugar destino; este puede ser desde un disco duro, un servidor, hasta una nube que se puede denominar data (Oracle, s.f.).
La carga de datos es un proceso que permite enviar la información al destino que el usuario determine. La tendencia mundial es depositar los datos en una nube. ¿Por qué es una tendencia? La razón es que da muchas ventajas, entre ellas está el hecho de que la disponibilidad de los datos es inmediata, ya que puede accederse desde cualquier lugar y dispositivo que tenga internet, lo que representa, además, una estrategia para resolver el reto de velocidad de las cinco V de Big Data. Históricamente, eso ha modificado incluso la forma en que trabajan las compañías y transformado la forma de almacenar la información.
En el siguiente cuadro, basado en Kantardzic (2020), se observan cifras de volúmenes de información que son cargados y procesados en algunas de las plataformas más comunes. Se ilustra con la finalidad de relacionar el volumen de las cinco V con la carga de datos. ¿Alguna vez has cargado un video en YouTube?
Tabla 1. Volúmenes de información de plataformas comunes.
Los datos deben contar con ciertos requisitos para ser cargados. Entre los requisitos está tener un formato delimitado (delimitadores como tabulador, coma, punto y coma y dos puntos, comillas, etcétera). Otro requisito es tener un formato específico (archivos .ZIP, .TXT o CSV, entre otros). Además, cada fila o registro debe tener una intersección dimensional de datos válida; por ejemplo, si tienes una segmentación de clientes por nivel de ingresos y ese dato forma intersección con otro que contiene información de si el hogar cuenta con agua potable, esto no hará tanto sentido, si se compara con formar una intersección con el dato de tipo de profesión. La validación de las dimensiones y el contexto de los datos es muy importante en el proceso de carga de los datos.
Para concluir, reflexiona sobre uno de los retos más importantes a los que se enfrenta la gerencia de marketing a la hora de la carga de los datos, es decir, que la transformación haya sido efectuada de forma eficiente. Muchas empresas tienen ERP, pero algunas veces los datos se cargan en diferentes formatos, extensiones e incluso desde lugares distintos. Por lo tanto, la homologación de las cargas para tener todos los datos disponibles en un solo lugar y la data normalizada y coherente para cumplir con la V de veracidad, son algunos de los grandes retos. Finalmente, los datos tienen que estar siempre disponibles y de forma oportuna para la toma de decisiones.
Interpretación y evaluación de datos
Es posible comprender las fases de evaluación e interpretación como aquellas en las que se realiza la búsqueda de patrones en la data mediante un algoritmo de minería de datos, así como la medición de su calidad. Dichos patrones deben tener tres cualidades (Calvache et al., 2018):
Para reflexionar sobre esto, considera el siguiente ejemplo:
Piensa que tienes el control de una empresa aeronáutica que cuenta con un sistema ERP que registra todas las transacciones derivadas de su proceso de ventas. Después de haber pasado por las fases necesarias, generas una base de datos de clientes con información como edad, género, ubicación, nacionalidad, nivel de ingresos, forma de pago, cantidad de veces que ha viajado en tu aerolínea, entre otros datos. Una vez que tienes esta información, ¿qué haces con ella?, ¿puedes obtener la probabilidad de compra de una persona cliente, sus preferencias y cuándo volverá a pagar por tus servicios?, ¿prefiere tus productos que los de la competencia? Ahora, si quisieras saber la relación que existe entre los gastos de publicidad y el nivel de ventas de la empresa, ¿sería posible realizar ese cálculo con los datos que tienes disponibles en la base de datos?, ¿qué técnicas estadísticas emplearías?, ¿tiene el género algún impacto específico en las ventas? y ¿cuál es la o las variables que deseas explicar en la empresa?
En la industria aeronáutica, una de las más interesantes en cuanto al uso de la data, la cuestión principal sería saber qué deseas interpretar de la data. Las empresas toman decisiones a través de la interpretación y evaluación de los datos, por ejemplo, el establecimiento de precios, el lanzamiento de campañas e incluso la formación de nuevas alianzas. Finalmente, es posible que se necesite interpretar las posibles relaciones y asociaciones que puedan existir entre las variables. Con los resultados interpretados, podrás realizar una evaluación y si es necesario, repetir el proceso de la minería de datos en un ciclo continuo.
La interpretación puede arrojar una causalidad entre las variables, y es importante tener siempre en cuenta que es posible encontrar relaciones espurias, es decir, sin sentido (García et al., 2018). Cuando se encuentra una causalidad, se permite modelar los datos con mayor facilidad y predecir patrones de datos, ya sea de forma cualitativa o cuantitativa. La interpretación y evaluación es la etapa crucial de los datos, porque es cuando se puede hacer analítica predictiva y comenzar a entrenar y ajustar los modelos de predicción a partir de los nuevos datos. Lo anterior permite seguir tomando decisiones en función de los nuevos modelos generados por la minería de datos.
La minería de datos es una rama de la ciencia de datos, e incluso puede decirse que es una rama de las ciencias computacionales que involucra los procesos de recopilación, filtrado, transformación, carga, interpretación y evaluación de los datos. Esto permite emplear numerosas técnicas del análisis de datos con la finalidad de extraer modelos que permitan a las personas y a las organizaciones realizar un modelado de forma eficaz y eficiente en un contexto determinado que pueda predecir comportamientos de quienes consumen, patrones de compra, preferencias, entre muchas otras decisiones fundamentales en las empresas o instituciones.
La minería de datos es una etapa en la ciencia de datos que se considera como la más importante por los procesos que implica; sin ellos sería sumamente complejo contar con información veraz y oportuna para la toma de decisiones. No tendría un sentido profundo el tratamiento de la información sin la idea de que pueda servir para ese fin. Por esto, el empleo de la minería de datos es fundamental para la toma de decisiones de la empresa.
Asegúrate de:
Los siguientes enlaces son externos a la Universidad Tecmilenio, al acceder a ellos considera que debes apegarte a sus términos y condiciones.
"Tecmilenio no guarda relación alguna con las marcas mencionadas como ejemplo. Las marcas son propiedad de sus titulares conforme a la legislación aplicable, estas se utilizan con fines académicos y didácticos, por lo que no existen fines de lucro, relación publicitaria o de patrocinio".