Contenido

Objetivo

Entender y aplicar el etiquetado de las partes de una oración.

Descripción

En este tema entenderás cómo se forma una oración desde su base más simple hasta cómo ocupar esta estructura para la creación de etiquetados de las partes de una oración.

Explicación

Haz clic para revisar la explicación.

Etiquetas de secuencias

Recursos adicionales

Los siguientes enlaces son externos a la Universidad Tecmilenio, al acceder a ellos considera que debes apegarte a sus términos y condiciones.

Revisa el siguiente video:

Para conocer más sobre etiqueta de secuencias, te recomendamos revisar el siguiente video:

KGP Talkie. (2019, 20 de octubre). NLP Tutorial 1 - Spam Text Message Classification using NLP, sklearn | Natural Language Processing [Archivo de video]. Recuperado de https://www.youtube.com/watch?v=mrF9MD56-wk

Actividad

Objetivo

Construir un etiquetador POS.

Instrucciones

El trabajo práctico que se realizará utiliza programación en Python 3 y la librería NLTK.

  1. Descarga el corpus “Brown” de NLTK y explóralo. No olvides importar las librerías y módulos requeridos para la actividad.


Esta pantalla se obtuvo directamente del software que se está explicando en la computadora, para fines educativos.

  1. Explora el conjunto de etiquetas de Penn Treebank. Utiliza la instrucción nltk.help.upenn_tagset()
  2. Explora las categorías del corpus Brown e imprime un ejemplo de oración etiquetada dentro de la categoría news. Para obtener las oraciones usa el método .tagged_sents.
  3. Repite el paso 3 modificando el parámetro tagset del método .tagged_sents para utilizar el conjunto de etiquetas universal. Imprime un ejemplo de oración etiquetada.
  4. Implementa una función que calcule la distribución de frecuencias de las etiquetas en una categoría dentro del corpus Brown y con base en un esquema de etiquetado, usa el esqueleto propuesto en la siguiente figura:


Esta pantalla se obtuvo directamente del software que se está explicando en la computadora, para fines educativos.

La función implementa cuatro tareas: convierte la lista de parejas (palabra, etiqueta) a una lista de etiquetas; utilizando las etiquetas calcula la distribución de frecuencias, calcula la cantidad de etiquetas en la distribución de frecuencias y regresa el número total de etiquetas y las 10 etiquetas más frecuentes.

Para probar la función es posible utilizar la instrucción de la línea 17 de la figura o cualquiera de las alternativas siguientes: explora_tagset_fd('science_fiction', 'universal')explora_tagset_fd('science_fiction', None) o cualquier combinación de parámetros válidos de género y esquema de etiquetado.

Checklist

Asegúrate de:

  • Explorar los elementos y características del conjunto de datos.
  • Calcular la distribución de frecuencias de las etiquetas del corpus.