Contexto


Tal vez el término “minería” te parezca extraño para una materia estadística. Sin embargo, estoy segura de que conoces cuál es el trabajo de un minero: escavar en las profundidades de una caverna o mina —por lo general muy profundo— para extraer material que es rico para alguien o para algo.

Bueno pues, exactamente ese mismo objetivo es el que se busca en estadística: escavar en las profundidades —de una base de datos— para extraer información que sea enriquecedora para algo o alguien.

A diferencia de un análisis estadístico tradicional (por llamarlo de alguna manera) la minería de datos se realiza en bases de datos que son sumamente extensas —con las que un software tradicional no funcionaría por su extensión—. En ocasiones, estas bases de datos cuentan con cientos de miles de casos distintos. Por supuesto, es posible realizar con ellos los estadísticos multivariados que ya hemos visto. Pero en este tema, entraremos en dos algoritmos que son sumamente útiles en este tipo de bases de datos: los árboles de decisión y las redes neuronales.

Un aspecto muy relevante de la minería de datos es la forma en que analiza la información. Aquí, parte de un punto —que en el árbol será la raíz— y conforme se avanza en opciones/respuestas, van creciendo las ramas. En las redes neuronales, serían las dendritas que comunican una célula con otra. Cualquier que sea el caso, en la minería de datos las bases de datos aprenden y van clasificando casos acorde a las respuestas.

¿Te suena interesante? ¡Pues adentrémonos en esta mina!

Preguntas detonadoras o de reflexión:

  1. Si hablamos de bases de datos muy amplias, ¿piensas que se requiera un espacio especial para guardar esta información? ¿En dónde sería?
  2. Un árbol puede ser de muchos tipos (frutal o de ornato, por ejemplo) y crecer de manera infinita (algunos requieren ser cortados). ¿Consideras que estos términos también apliquen para los árboles de decisión? Y sobre todo, ¿piensas que requieran esos mismos cuidados?

Explicación


La minería de datos puede definirse como un proceso de descubrimiento de relaciones nuevas y significativas, patrones y tendencias al examinar grandes cantidades de datos (Hair, 2007).

La disponibilidad de grandes volúmenes de información y el uso generalizado de herramientas informáticas ha transformado el análisis de datos orientándolo hacia determinadas técnicas especializadas englobadas bajo el nombre de minería de datos o Data Mining.

Las técnicas de minería de datos persiguen el descubrimiento automático del conocimiento contenido en la información almacenada, de modo ordenado, en grandes bases de datos. Estas técnicas tienen como objetivo descubrir patrones, perfiles y tendencias a través del análisis de los datos utilizando tecnologías de reconocimiento de patrones, redes neuronales, lógica difusa, algoritmos genéticos y otras técnicas avanzadas de análisis de datos (Tusell, 2012).

Con la informatización de las organizaciones y la aparición de aplicaciones software operacionales sobre el sistema de información, la finalidad principal de los sistemas de información es dar soporte a los procesos básicos de la organización (ventas, producción, personal…). Una vez satisfecha la necesidad de tener un soporte informático para los procesos básicos de la organización (sistemas de información para la gestión), las organizaciones exigen nuevas prestaciones de los sistemas de información (sistemas de información para la toma de decisiones).



De esta forma han aparecido diferentes herramientas de negocio para la toma de decisiones (DSS o Decision Support Systems) que coexisten: EIS (Executive Information System), OLAP (On-Line Analytical Proccesing), consultas e informes, y las propias herramientas de minería de datos.



Todas estas herramientas necesitan de la existencia previa de un almacén de datos (Data Warehouse). El almacén de datos es una colección de datos orientada a un dominio, integrada, no volátil y variante en el tiempo para ayudar en la toma de decisiones. Es un conjunto de datos históricos, internos o externos y descriptivos de un contexto o área de estudio, que están integrados y organizados de tal forma que permiten aplicar eficientemente herramientas para resumir, describir y analizar los datos con el fin de ayudar en la toma de decisiones estratégicas (Tusell, 2012).

La minería de datos es una etapa del proceso de extracción de conocimiento a partir de datos (KDD). Este proceso consta de varias fases como la preparación de datos (selección, limpieza y transformación), su exploración y auditoría, minería de datos propiamente dicha (desarrollo de modelos y análisis de datos), evaluación, difusión y utilización de modelos (output). Además, el proceso de extracción del conocimiento incorpora muy diferentes técnicas (árboles de decisión, regresión lineal, redes neuronales artificiales, técnicas bayesianas, máquinas de soporte vertical, etc.) de campos diversos (aprendizaje automático e inteligencia artificial), estadística, bases de datos, etc. Y aborda una tipología variada de problemas (clasificación, categorización, estimación /regresión, agrupamiento, etc.). (Hair, 2007; Pérez 2004).

12.1 Árboles de decisión

Los árboles de decisión aprenden bajo un sistema englobado en una metodología de aprendizaje supervisado. La representación que se utiliza para las descripciones del concepto adquirido es el árbol de decisión, que consiste en una representación de los conocimientos relativamente simple y que es una de las causas por la que los procedimientos utilizados en su aprendizaje son más sencillos que utilizan lenguajes de representación más potentes, como redes semánticas, representaciones en lógica de primer orden, etc.

Un árbol de decisión puede interpretarse esencialmente como una serie de reglas compactadas para su representación, en forma de árbol. Dado un conjunto de ejemplos, estructurados como vectores de pares ordenados atributo-valor, de acuerdo con el formato general en el aprendizaje inductivo a partir de ejemplos, el concepto que estos sistemas adquieren durante el proceso de aprendizaje consiste en un árbol. Cada eje está etiquetado con un par atributo-valor y las hojas con una clase, de forma que la trayectoria que determina desde la raíz los pares de un ejemplo de entrenamiento alcanzan una hoja etiquetada —normalmente— con la clase del ejemplo. La clasificación de un ejemplo nuevo del que se desconoce su clase se hace con la misma técnica, solamente que en ese caso al atributo clase, cuyo valor se desconoce, se le asigna de acuerdo con la etiqueta de la hoja a la que se accede con ese ejemplo (Hair, 2007; Tusell, 2012).





Acorde a Hair (2007) Existen 3 algoritmos de árboles de decisión:

  1. El sistema ID3

Genera el árbol de decisión seleccionando un atributo como raíz del árbol y crea una rama con cada uno de los posibles valores de dicho atributo. Cada rama resultante (nuevo nodo del árbol), se realiza el mismo proceso hasta que todos los ejemplos se clasifiquen a través de uno de los caminos del árbol. El nodo final de cada camino será un nodo hoja, al que se le asignará la clase correspondiente. Así, el objetivo de los árboles de decisión es obtener reglas o relaciones que permitan clasificar a partir de los atributos.

En cada nodo del árbol de decisión se debe seleccionar un atributo para seguir dividiendo, y el criterio que se toma para elegirlo es: se selecciona el atributo que mejor separe (ordene) los ejemplos de acuerdo a las clases. Para ello se emplea la entropía, que es una medida de cómo está ordenado el universo. La teoría de la información (basada en la entropía) calcula el número de bits (información, preguntas sobre atributos) que hace falta suministrar para conocer la clase a la que pertenece un ejemplo. Cuanto menor sea el valor de la entropía, menor será la incertidumbre y más útil será el atributo para la clasificación.

  1. El sistema C4.5

Trata con atributos de valores discretos o continuos. En el primer caso, el árbol de decisión generado tendrá tantas ramas como valores posibles tome el atributo. Si los valores del atributo son continuos, no clasifica correctamente los ejemplos dados. Debido a la complejidad que estriban los valores continuos (que se verán clasificados en múltiples ramas), el árbol resultante puede ser bastante complejo, con trayectorias largas y muy desiguales.
Para facilitar la comprensión, se propuso:

  1. El empleo del concepto razón de ganancia.
  2. Construir árboles de decisión cuando algunos de los ejemplos presentan valores desconocidos para algunos de los atributos.
  3. Trabajar con atributos que presenten valores continuos.
  4. La poda de los árboles de decisión.
  5. Obtención de reglas de clasificación.

Para facilitar la comprensión del árbol puede realizarse una poda del mismo.

  1. Decisión stump (árbol de un solo nivel)

Este tiene un algoritmo sumamente sencillo que genera un árbol de decisión de un solo nivel, utilizando un único atributo para construir el árbol de decisión. La elección del único atributo que formará parte del árbol se realizará basándose en la ganancia de información, y a pesar de su simplicidad, en algunos problemas puede llegar a conseguir resultados interesantes.
El árbol de decisión tendrá 3 ramas: una para cuando el atributo sea desconocido, y las otras dos para el caso de que el valor del atributo del ejemplo de test sea igual a un valor concreto del atributo o distinto a dicho valor; en caso de los atributos simbólicos, o que el valor del ejemplo de test sea mayor o menor a un determinado valor en el caso de atributos numéricos. En el caso de atributos simbólicos se busca el mejor punto de ruptura. Deben tenerse en cuenta cuatro posibles casos al calcular la ganancia de información:

  1. Atributo simbólico y clase simbólica
  2. Atributo numérico y clase simbólica
  3. Atributo simbólico y clase numérica
  4. Atributo numérico y clase numérica

12.2 Redes neuronales

Las redes neuronales constituyen una nueva forma de analizar la información con una diferencia fundamental con respecto a las técnicas tradicionales: son capaces de detectar y aprender complejos patrones y características dentro de los datos. Se comportan de forma parecida a nuestro cerebro, aprendiendo de la experiencia y del pasado, y aplicando tal conocimiento a la resolución de problemas nuevos (Hair, 2007).





Este aprendizaje se obtiene como resultado del adiestramiento, y éste permite la sencillez y la potencia de adaptación y evolución ante una realidad cambiante y muy dinámica. Una vez adiestradas las redes de neuronas pueden hacer previsiones, clasificaciones y segmentación. Presentan, además, una eficiencia y fiabilidad similar a los métodos estadísticos y sistemas expertos, en la mayoría de los casos. En aquellos casos de muy alta complejidad las redes neuronales se muestran como especialmente útiles dada la dificultad de modelado que supone para otras técnicas (Tusell, 2012). Sin embargo, las redes de neuronas tienen el inconveniente de la dificultad de acceder y comprender los modelos que generan y presentan dificultades para extraer reglas de tales modelos. Otra característica es que son capaces de trabajar con datos incompletos e incluso, contradictorios lo que, dependiendo del problema, puede resultar una ventaja o un inconveniente. Las redes neuronales poseen las dos formas de paradigma que usan: el no supervisado y el supervisado que suele usar el paradigma del “backpropagation” (Julián, 2014).

Las redes neuronales están siendo utilizadas en distintos y variados sectores como la industria, el gobierno, el ejército, las comunicaciones, la investigación aeroespacial, la banca y las finanzas, los seguros, la medicina, la distribución, la robótica, el marketing, etc. En la actualidad se está estudiando la posibilidad de utilizar técnicas avanzadas y novedosas como los algoritmos genéticos para crear paradigmas que mejoren el adiestramiento y la propia selección y diseño de la arquitectura de la red (número de capas y neuronas), diseño que ahora debe realizarse con base en la experiencia del analista y para cada problema concreto (Tusell, 2012).

Las redes neuronales se construyen estructurando en una serie de niveles o capas (al menos tres: entrada, procesamiento u oculta y salida) compuestas por nodos o “neuronas”. Tanto el umbral como los pesos son constantes y se inicializarán aleatoriamente y durante el proceso de aprendizaje serán modificados. La salida neuronal se define mediante una ecuación.

Cada neurona está conectada a todas las neuronas de las capas anterior y posterior a través de los pesos o “dendritas”.

Cuando un nodo recibe las entradas o “estímulos” de otras los procesa para producir una salida que trasmite a la siguiente capa de neuronas. La señal de salida tendrá una intensidad fruto de la combinación de la intensidad de las señales de entrada y de los pesos que las transmiten. Los pesos o dendritas tienen un valor distinto para cada par de neuronas que conectan pudiendo así fortalecer o debilitar la conexión o comunicación entre neuronas particulares. Los pesos son modificados durante el proceso de adiestramiento (Tusell, 2012).

El diseño de la red de neuronas consistirá, entre otras cosas, en la definición del número de neuronas de las tres capas de la red. Las neuronas de la capa de entrada y las de la capa de salida vienen dadas por el problema a resolver, dependiendo de la codificación de la información. En cuanto al número de neuronas ocultas se determinará por prueba y error. Por último, debe tenerse en cuenta que la estructura de las neuronas de la capa de entrada se simplifica, dado que su salida es igual a su entrada: no hay umbral ni función de salida (Julián, 2014).

Existen distintos métodos o paradigmas mediante los cuales estos pesos pueden ser variados durante el adiestramiento, de los cuales el más utilizado es el de retropropagación o backpropagation. Este paradigma varía los pesos de acuerdo a las diferencias encontradas entre la salida obtenida y la que debería obtenerse. De esta forma, si las diferencias son grandes, se modifica el modelo de forma importante, y según van siendo menores, se va convergiendo a un modelo final estable.
En cuanto al criterio de parada, se debe calcular la suma de los errores en los patrones de entrenamiento. Si el error es constante de un ciclo a otro, los parámetros dejan de sufrir modificaciones y se obtiene así el error mínimo. Por otro lado, también se debe tener en cuenta el error en los patrones de validación, que se presentarán a la red tras n ciclos de aprendizaje. Si el error en los patrones de validación evoluciona favorablemente, se continúa con el proceso de aprendizaje; si el error no desciende, se detiene el aprendizaje (Tusell, 2012).

Cierre


La minería de datos está constituida por un conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos de manera automática, o bien semiautomática, con la intención de encontrar patrones repetitivos, tendencias o reglas que nos permitan explicar el comportamiento de los datos en un determinado contexto.

Dicho de manera coloquial, los datos son la materia prima. Cuando los entendemos, pasan a ser información. Al entenderlos, adquieren un valor agregado y podemos decir que surgió el conocimiento.

El proceso de minería de datos básicamente tiene 4 etapas:

 

Finalmente, la minería de datos es considerada una tecnología emergente, con múltiples ventajas: por un lado, resulta un excelente punto de encuentro entre investigadores y personas de negocios; también, ahorra grandes cantidades de dinero a las empresas y puede conducir a nuevas oportunidades de negocios. Por si fuera poco, trabajar con esta tecnología implica cuidar múltiples detalles debido a que el producto final involucra "toma de decisiones".

¿Piensas que es sencillo manejar bases de datos de este tamaño? Hemos hablado únicamente de datos numéricos, pero, ¿qué pasa con la información textual, que también puede ser inmensa? ¿Consideras que también puede ser analizada?

Checkpoint


Antes de concluir el tema, asegúrate de poder contestar las preguntas que se enlistan a continuación.

Instrucciones: Da clic en las preguntas para conocer su respuesta

  • Ayudan a encontrar relaciones entre datos existentes que en ocasiones no se sabía podían existir.
  • Ayuda a elegir cursos de acción y definir estrategias competitivas.
  • Los seres humanos no podemos hacer inferencias relacionadas con grandes volúmenes de datos, por lo que estos procesos son fundamentales para la buena toma de decisiones.
  • El proceso de búsqueda de patrones puede ser programado y automático, por lo que no requiere tener a una persona todo el tiempo analizando la información.

Dependerá del objetivo que se plantee y las ventajas /desventajas de utilizar uno u otro.

Los árboles de decisión utilizan por lo general métodos no paramétricos para reconocer patrones complejos, especialmente cuando en la tarea de clasificación se involucran varias clases de patrones y un gran número de atributos. Buscan que en cada evaluación sucesiva de una función de decisión se reduzca la incertidumbre en la identificación del patrón desconocido.

En el caso de las redes neuronales es necesario definir su estructura —número de nodos y capas— y aún definida ésta no hay garantía que converja a una solución aceptable. El entrenamiento basado en la retropropagación busca mejorar este tipo de modelos que pueden aprender por sí mismos cuando no se tiene una idea clara de lo que puede resultar.

Glosario


Almacén de datos o datawarehouse: es una colección de datos orientada a un dominio, integrada, no volátil y variante en el tiempo para ayudar en la toma de decisiones.

Árbol C4.5: árbol generado con valores discretos o continuos.

Árbol de decisión: una serie de reglas compactadas para su representación, en forma de árbol, decisión aprenden bajo un sistema englobado en una metodología de aprendizaje supervisado.

Árbol decisión stump: árbol de un solo nivel, utilizando un único atributo como raíz y 3 ramas.

Árbol ID3: árbol generado con únicamente valores discretos.

Backpropagation o retropropagación: variación en los pesos de acuerdo a las diferencias encontradas entre la salida obtenida y la que debería obtenerse que permite el aprendizaje en una red neuronal y la mejora del modelo.

Dendritas: conexión entre neuronas.

Entropía: medida de cómo está ordenado el universo.

Ganancia de información: propiedad estadística que mide cómo clasifica un atributo en particular a los ejemplos.

Minería de datos: proceso de descubrimiento de relaciones nuevas y significativas, patrones y tendencias al examinar grandes cantidades de datos; es una etapa del proceso de extracción de conocimiento a partir de datos.

Neuronas: serie de niveles o capas (entrada, procesamiento y salida) también llamadas nodos.

Nodo: rama del árbol que consiste en la clasificación de una clase o valor para un atributo.

Redes neuronales: constituyen una nueva forma de analizar la información con una diferencia fundamental con respecto a las técnicas tradicionales: son capaces de detectar y aprender complejos patrones y características dentro de los datos.

Referencias


Libro de texto:

  • Malhotra, N. (2008). Investigación de Mercados: Un enfoque aplicado. (5ª ed.) México: Pearson. 
    ISBN: 9789702611851

Libros de apoyo:

  • Hair, J. F. (2007). Análisis Multivariante. (5ª ed.). México: Pearson/ Prentice Hall.
    ISBN: 9788483220351. 
  • Pérez, L.C. (2014). Técnicas de Análisis Multivariante de Datos. España: Pearson /Prentice.