Contenido

Objetivo

Conocer y comprender el concepto de agrupamiento por k-medias con el propósito de implementarlo a un problema real y comprobar su efectividad.

Descripción

La agrupación en clústeres es uno de los métodos más antiguos en el repertorio de aprendizaje no supervisado, por lo que existen numerosos tipos de este algoritmo en la literatura. En esta experiencia educativa aprenderás una de sus formas más simples, pero bastante efectiva, a la cual se le conoce como agrupación (clustering) en k-medias, en donde la variable K denota el número de conglomerados y el usuario determina el valor de dicha variable antes de comenzar a aplicar el algoritmo.

Explicación

Haz clic para revisar la explicación.

El algoritmo k-medias aplicado a la clasificación

Recursos adicionales

Los siguientes enlaces son externos a la Universidad Tecmilenio, al acceder a ellos considera que debes apegarte a sus términos y condiciones.

Revisa el siguiente video:

Para conocer más sobre los fundamentos matemáticos para el aprendizaje automático, revisa el siguiente video:

Rocio Chavez Ciencia de Datos. (2020, 30 de abril). Clustering con K-Means. Explicación Matemática y Mucho más… [Archivo de video]. Recuperado de https://youtu.be/n98fnSEoRiM

Actividad

Objetivo

Clasifica conjuntos de datos utilizando la técnica de agrupamiento k-means en el lenguaje de programación Python.

Instrucciones

El conjunto de datos de la flor de iris (https://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html) consta de tres diferentes tipos de la misma (setosa, versicolor y virginica), almacenados en un arreglo tipo numpy. Con base en esto, realiza lo siguiente:

  1. Inicia un entorno de trabajo en Google Colaboratory (https://colab.research.google.com/) y crea un nuevo cuaderno en lenguaje Python.
  2. Importa el conjunto de datos de la flor iris (iris_dataset) integrado en la librería Scikit-learn. Puedes apoyarte del sitio en la descripción del inicio.
  3. Elabora un programa en Python que realice el agrupamiento de dichos datos mediante el algoritmo k-means.
  4. Selecciona varios valores de k como parámetro inicial y comprueba los resultados obtenidos con los valores conocidos de las muestras previamente clasificadas.
Checklist

Asegúrate de:

  • Importa el conjunto de datos de la flor de iris.
  • Implementa correctamente el algoritmo k-means.
  • Realiza los experimentos necesarios, modificando los valores iniciales de los clústeres y comparando los resultados.