Módulo 3 / Semana 12

Evidencia final


Definir el tema o problema a analizar, aplicar la metodología CRISP-DM para implementarla en proyectos de Big Data y definir la infraestructura que se usará. Ejecutar el análisis de información en una infraestructura para Big Data.

  1. Explora Twitter buscando un problema o tema que se quiera abordar. 
  2. Investiga sobre la metodología CRISP-DM y cada una de sus fases. 
  3. Investiga sobre análisis de datos basados en Twitter. 
  4. Haz un análisis del tema elegido y define en un documento cada una de las fases de la metodología CRISP-DM para este proyecto en particular, especificando: 
    • Fase I: Definición de necesidades. 
    • Fase II: Estudio y comprensión de los datos. 
    • Fase III. Análisis de los datos y comprensión de características. 
  5. Define la arquitectura de la infraestructura a usar incluyendo Hadoop y Spark, haciendo un estimado de la cantidad de datos a ser procesados. 
  6. Elabora un cronograma de actividades para cada una de las fases, incluyendo el análisis a realizar de la información con gráficos y tablas de apoyo. 
  7. Instala y configura Hadoop en el ambiente elegido. 
  8. Instala PySpark en Python. 
  9. Instala todo lo necesario para la infraestructura planteada que requiera su proyecto. 
  10. Define dos hipótesis que quisieras comprobar con el análisis de información. 
  11. Por cada hipótesis realiza un análisis con las herramientas propuestas, obtén gráficos con código que ayuden a probar la hipótesis, así como la información más relevante para cada una de ellas. Toma evidencia del uso de cada herramienta para el reporte final del proyecto. 

Documento electrónico que incluya:

  • Tema para investigar, las fases de la metodología CRISP-DM para el proyecto y la infraestructura a usar. 
  • Dos casos de análisis de datos basados en Twitter. 
  • Evidencia de las instalaciones realizadas. 
  • Análisis de las hipótesis propuestas y sus gráficos de información de valor. 

Realiza la entrega de tu evidencia con base en los criterios de evaluación que se muestran en la siguiente rúbrica.