Comprender la importancia de los n-gramas y crear un modelo a partir de una base de datos corpus.
En este tema comprenderás qué son los tokens, los n-gramas, así como la utilidad de los modelos de lenguaje.
Los siguientes enlaces son externos a la Universidad Tecmilenio, al acceder a ellos considera que debes apegarte a sus términos y condiciones.
Para conocer más sobre modelos de lenguaje en n-gramas, te recomendamos leer:
Huyen, C. (2019). Evaluation Metrics for Language Modeling. Recuperado de: https://thegradient.pub/understanding-evaluation-metrics-for-language-models/
Generar un modelo de una base de datos usando la librería de scikit-learn.
El trabajo práctico que se realizará utiliza programación en Python 3 y una librería de código abierto: scikit-learn, utilizada para análisis de datos. Para mayor referencia, consulta el sitio oficial de scikit-learn en internet.
Asegúrate de: