Contenido

Objetivo

Comprender la importancia de los n-gramas y crear un modelo a partir de una base de datos corpus.

Descripción

En este tema comprenderás qué son los tokens, los n-gramas, así como la utilidad de los modelos de lenguaje.

Explicación

Haz clic para revisar la explicación.

Modelos de lenguaje en n-gramas

Recursos adicionales

Los siguientes enlaces son externos a la Universidad Tecmilenio, al acceder a ellos considera que debes apegarte a sus términos y condiciones.

Revisa la siguiente lectura:

Para conocer más sobre modelos de lenguaje en n-gramas, te recomendamos leer:

Huyen, C. (2019). Evaluation Metrics for Language Modeling. Recuperado de: https://thegradient.pub/understanding-evaluation-metrics-for-language-models/

Actividad

Objetivo

Generar un modelo de una base de datos usando la librería de scikit-learn.

Instrucciones

El trabajo práctico que se realizará utiliza programación en Python 3 y una librería de código abierto: scikit-learn, utilizada para análisis de datos. Para mayor referencia, consulta el sitio oficial de scikit-learn en internet.

  1. Descarga el corpus “wine dataset” dentro de scikit-learn y explóralo. El conjunto de datos contiene los resultados de análisis químico de vinos cultivados en la misma región en Italia, pero derivados de tres cultivares diferentes, consta de 13 atributos y 3 tipos de vino.
  2. Separa las columnas de los datos en variables dependientes e independientes, es decir, atributos y etiquetas de clase.
    Utiliza el código siguiente para separar los datos en el conjunto de entrenamiento y de prueba.
    from sklearn.cross_validation import train_test_split
    X_train, X_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.3,random_state=109)
  3. Genera el modelo utilizando el conjunto de datos de entrenamiento.
Checklist

Asegúrate de:

  • Explorar los elementos y las características del conjunto de datos.
  • Generar el modelo del clasificador.