Módulo 2 / Semana 8

Actividad 2. Texto


Descripción

Desarrollo de un proyecto de ingeniería masiva de datos de datos de la empresa Instacart, cubriendo las etapas de entendimiento del negocio y de los datos.

Objetivo

Diseña interfaces de visualización de la información a través de distintos sistemas, para una toma de decisiones basada en los datos recolectados.

Lee con atención plena el siguiente caso:

Instacart, es una empresa dedicada al servicio de compra y entrega en línea de comestibles, para ello cuenta con una aplicación para la realización de los pedidos. Su objetivo es facilitar el proceso de compra de despensa de sus clientes, cubriendo la demanda desde alimentos básicos, hasta los favoritos de ocasiones especiales.

La empresa ha puesto a disposición de cualquier persona un set de datos públicos de sus ventas con la finalidad de promover, entre los entusiastas de la programación y la ciencia de datos, la publicación de hallazgos que permitan mejorar su operación y habilitar una mejor experiencia de compra a sus clientes.

Elizabeth, quien recientemente ha terminado sus estudios universitarios, trabaja en una startup dedicada al sector del estudio de los datos. Junto con otras compañeras de la empresa, han decidido trabajar con los datos de Instacart en un proyecto, que tiene como objetivo principal hacer una segmentación de sus clientes e identificar los productos más vendidos en un segmento determinado. Para ello, deben seleccionar uno de los segmentos de clientes y hacer un análisis de canasta de mercado para determinar qué productos se compran frecuentemente en conjunto en un determinado segmento. Como resultado, esperan hacer una presentación con los hallazgos y una propuesta de cómo usar la información para que la empresa mejore su operación.

La propuesta del proyecto que van a desarrollar incluirá el objetivo, entendimiento del negocio, descripción de los datos disponibles y los hallazgos de un análisis exploratorio de los datos.

Imagina que tomarás el rol de Elizabeth y realiza cada una de las indicaciones.

  1. Prepara el ambiente de Python en el equipo de cómputo donde se realizará la evidencia, para ello instala Anaconda mediante los siguientes pasos:
    • Descarga la Suite de Anaconda con Python 3.X desde: https://www.anaconda.com
    • Instala la Suite.
    • Abre Jupyter notebook desde el explorador de Anaconda.
    • Ingresa un código para imprimir Hello World y corre la celda del código.
  2. Lleva a cabo una investigación sobre la empresa Instacart en Internet.
  3. La información que será analizada corresponde a los pedidos de los clientes a través del tiempo. Para ello se cuenta con un dataset anónimo de alrededor de 3 millones de pedidos de aproximadamente 200,000 usuarios de la empresa.
    • Ingresa a cualquiera de las siguientes ligas para obtener estos datos: Kaggle (s.f.). Instacart Market Basket Analysis. Recuperado de https://www.kaggle.com/c/instacart-market-basket-analysis/data
    • Instacart (2017). 3 Million Instacart Orders, Open Sourced. Recuperado de https://www.instacart.com/datasets/grocery-shopping-2017
    • Para obtener más información de este dataset, consulta el siguiente recurso: Stanley, J. (2017). 3 Million Instacart Orders, Open Sourced. Recuperado de https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2
  4. Una vez que se tengan los datos, realiza lo siguiente:
    • Elabora un diccionario de datos.
    • Diseña un diagrama de datos.
    • Utiliza un Notebook de Jupyter para acceder a los datos y lleva a cabo un análisis descriptivo, el cual incluirá la descripción detallada de cada uno de los archivos de datos.
  5. Realizado el análisis anterior, lleva a cabo el entendimiento del negocio, señalando los objetivos del proyecto y la descripción de los datos disponibles.

Criterio

Puntaje

  • Incluye el entendimiento del negocio, además de determinar los objetivos del proyecto.

18

  • Crea un diccionario de datos.

30

  • Incluye un diagrama de datos.

22

  • Realiza un análisis con la descripción de cada uno de los archivos de datos

30

Archivo electrónico que incluya el entendimiento del negocio, el objetivo del proyecto y la descripción de los datos disponibles.