Tema

Contenido

Objetivo

Aplicar los comandos de la librería Natural Language Toolkit de Python para el procesamiento de lenguaje natural y analizar los resultados obtenidos.

Descripción

En este tema aprenderás sobre los recursos léxicos, el concepto de corpus y lo aplicarás al desarrollar un programa en Python para el análisis de texto.

Explicación

Haz clic para revisar la explicación.

Lingüística computacional basada en corpus

Recursos adicionales

Los siguientes enlaces son externos a la Universidad Tecmilenio, al acceder a ellos considera que debes apegarte a sus términos y condiciones.

Revisa la siguiente lectura:

Para conocer más sobre lingüística computacional basada en corpus, te recomendamos leer:

NLTK Project. (2021). Natural Language Toolkit. Recuperado de https://www.nltk.org

Actividad

Objetivo

Analizar un conjunto de datos.

Instrucciones

El trabajo práctico que se realizará utiliza programación en Python y una librería de código abierto, Natural Language Toolkit (NLTK 3), utilizada para procesamiento de lenguaje natural.

Calcula las frecuencias a nivel de caracter y de palabra del corpus de “Movie reviews” distribuido dentro de NLTK. Para mayor referencia sobre los corpus, consulta la fuente:

NLTK. (2021). Documentation. Recuperado de https://www.nltk.org/howto/corpus.html

El siguiente enlace es externo a la Universidad Tecmilenio,
al acceder a éste considera que debes apegarte a sus términos y condiciones.

Descarga el corpus de críticas de cine “movie reviews” dentro de NLTK y explóralo. El corpus contiene críticas de cine en dos categorías: positiva y negativa.

Para usar el corpus puedes utilizar las líneas de código siguientes:

import nltk
nltk.download('movie_reviews')

Calcula las frecuencias a nivel de un caracter y genera histogramas para cada categoría. Para generar las gráficas, ordena las frecuencias de los caracteres de mayor a menor.
Interpreta cada histograma en función de los caracteres que destacan y da indicios del por qué ocurren esas observaciones.
Calcula las frecuencias a nivel de palabra y genera histogramas para cada categoría. Para generar las gráficas, ordena las frecuencias de los caracteres de mayor a menor. Remueve los símbolos de puntuación (comas, puntos, números, signos de interrogación, etc.) y acentos del texto. Solo se deberá procesar lo que se considera palabras.
Contesta las preguntas siguientes:

¿Cuántas palabras hay en cada categoría?
¿Cuántas palabras diferentes (únicas) hay en cada categoría?
¿Cuáles son las palabras con frecuencia 1 (hápax legomenón) en cada categoría? Muestra las primeras 100 palabras si es que las hay.
¿Cuáles son las palabras más frecuentes en cada categoría? Mostrar las primeras 70 palabras, si es que las hay. ¿En qué difieren en cada categoría?

Checklist

Asegúrate de:

Explorar los elementos y características del conjunto de datos.
Calcular las frecuencias del conjunto de datos.
Analizar los histogramas y profundizar en las observaciones sobre los caracteres.
Identificar palabras asociadas a críticas negativas y positivas y profundizar en las observaciones.