Contenido

Objetivo

Conocer los diferentes tipos de agrupamiento y sus principales características, identificando las variantes del agrupamiento jerárquico y los diversos parámetros que se pueden configurar para obtener un clusterizado más adecuado, con el fin de implementar una solución basada en alguna de las técnicas de agrupamiento.

Descripción

De forma general, el agrupamiento es una herramienta muy utilizada para identificar segmentos o patrones de características en conjuntos de datos variados. En el caso de la agrupación suave, en lugar de poner cada muestra en clústeres separados, se le asigna una probabilidad de pertenencia ese grupo, por lo que, en el agrupamiento suave o difuso, cada observación puede pertenecer a uno o varios clústeres en función de una puntuación de probabilidad o verosimilitud.

Explicación

Haz clic para revisar la explicación.

Técnicas mejoradas de agrupamiento

Recursos adicionales

Los siguientes enlaces son externos a la Universidad Tecmilenio, al acceder a ellos considera que debes apegarte a sus términos y condiciones.

Revisa la siguiente lectura:

Para conocer más sobre los fundamentos matemáticos para el aprendizaje automático, te recomendamos leer:

Mayo, M. (2020). Centroid Initialization Methods for k-means Clustering. Recuperado de https://www.kdnuggets.com/2020/06/centroid-initialization-k-means-clustering.html

Actividad

Objetivo

Clasifica conjuntos de datos utilizando técnicas mejoradas de agrupamiento y el lenguaje de programación Python.

Instrucciones

El conjunto de datos de la flor de iris (https://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html) consta de tres diferentes tipos de la misma (setosa, versicolor y virginica), almacenados en un arreglo tipo numpy. Con base en esto, realiza lo siguiente:

  • Inicia un entorno de trabajo en Google Colaboratory (https://colab.research.google.com/) y crea un nuevo cuaderno en lenguaje Python.
  • Importa el conjunto de datos de la flor iris (iris_dataset) integrado en la librería Scikit-learn. Puedes apoyarte del sitio en la descripción del inicio.
  • Elabora un programa en Python que realice el agrupamiento de dichos datos empleando el agrupamiento jerárquico aglomerativo.
  • Genera el dendrograma correspondiente utilizando el método de linkage completo. Asimismo, realiza el análisis de los índices silhouette para seleccionar el número óptimo de clústeres.
Checklist

Asegúrate de:

  • Importa el conjunto de datos de la flor de iris.
  • Implementa correctamente el algoritmo de agrupamiento jerárquico aglomerativo.