Competencia del certificado:
Diseña e implementa una infraestructura de Big Data y Analítica eficiente y confiable, acorde a las necesidades de cualquier tipo de organización multinacional.

Instrucciones:

  1. Lee con atención el siguiente caso de estudio:

  2. Superstore es una cadena de supermercados localizada en Estados Unidos y Canadá, que vende todo tipo de artículos para el hogar, así como ropa, electrodomésticos y como alimentos. Su estrategia comercial radica en disminuir los precios de los productos entre un 15-45% sobre las ofertas de la competencia.
    Como experto en análisis de datos y Big Data, intente descubrir las áreas débiles en las que se puede trabajar para obtener más ganancias y prepare una infraestructura de Big Data adecuada para gestionar la toma decisiones a partir la información de la empresa que se tiene en estos momentos o se tendrá en un futuro.

Parte 1

  1. Prepara el ambiente de Python en el equipo de cómputo donde se realizará la evidencia, para ello puedes instalar de forma local el programa Anaconda o utilizar la herramienta en la nube Google Colaboratory.
  2. Para realizar esta evidencia vas a utilizar el conjunto de datos localizado en este enlace: https://www.kaggle.com/itssuru/super-store , descarga este dataset a tu computadora o área de trabajo.
  3. Una vez que se tengan los datos, realiza lo siguiente:
    1. Importa el conjunto de datos a un cuaderno de Jupyter
    2. Elabora un diccionario de datos.
    3. Diseña un diagrama de datos.
    4. Desarrolla un análisis descriptivo, el cual incluirás la descripción detallada de cada una de las categorías definidas dentro del conjunto datos.
  4. Llevar a cabo un análisis exploratorio de los datos con la finalidad de entender y localizar hallazgos realizando al menos 3 diferentes visualizaciones, las cuales tiene como punto de partida, hacerse preguntas como:
    1. ¿Qué categorías de productos se venden más?
    2. ¿Qué ciudad compra más productos de tecnología?
    3. Nota: puedes hacer este análisis usando alguna herramienta de visualización de datos como Tableau. Para ello, debes crear una de Tableau Public y realiza la instalación en tu computadora desde https://public.tableau.com/en-us/s/download

  1. Elaborar una reflexión sobre la problemática planteada que incluya la respuesta a las siguientes preguntas:

  2. Proyecto


    Datos

  1. Realiza el proceso de preparación de los datos necesaria para utilizar el modelo de K-means con la finalidad de realizar una segmentación adecuada a tu problemática.

Parte 2

  1. Realicen el procedimiento necesario para lograr levantar con éxito un clúster, el cual debe incluir evidencia detallada de la realización de los siguientes pasos:
    1. Creación de una cuenta para estudiantes de Microsoft Azure.
    2. Ingreso al portal de Microsoft Azure.
    3. Localización de Azure HDInsight dentro de la sección all resources.
    4. Generación de un clúster HDInsght.
    5. Monitoreo del estado del clúster creado mediante Ambari Views.
    6. Selección de la configuración Data Lake Storage Gen1, justificando esta elección y explicando sus capacidades y ventajas.
  1. Una vez descargados los archivos con la información de la cadena de tiendas Superstore, realicen el proceso para cargar estos archivos (en formato .zip) al clúster que ha sido creado.
  2. Realicen el proceso para conectarte al clúster creado mediante SSH.
  3. Ahora descompriman el archivo con la información de la cadena de tiendas Superstore que descargaron en el paso 9.
  4. Realicen el proceso para crear un directorio dentro del storage generado por el cluster y copia los archivos csv que descomprimieron en el paso 11.
  5. Después de descomprimir el archivo, deberán generar una tabla con HQL en Hive para almacenar los datos.
  6. Generen contenido para ese archivo mediante la ejecución de varios queries (consultas).
  7. Ahora inicien Hive y ejecuten el archivo creado.
  8. Una vez que el archivo haya sido ejecutado satisfactoriamente, realicen el proceso para abrir una sesión interactiva de Beeline.
  9. Realicen al menos una consulta desde la consola que permita obtener información sobre los estados donde más se venden teléfonos celulares. Señalen además en que espacio se guardan.
  10. Ahora realicen el proceso para lograr visualizar los datos capturados en las tablas de Hive. Recuerden que se busca conocer que se debe mejorar para aumentar las ventas de Superstore.

  11. Nota:
    Realicen la acción anterior basándose en las siguientes indicaciones:

  1. Elaboren una presentación electrónica ejecutiva que señale la implementación de la infraestructura realizada y el dashboard creado mediante Power BI para el proyecto, incluyendo tus conclusiones.

Criterios de evaluación.

Puntaje

  • Realiza el análisis exploratorio de los datos

15

  • Elabora una reflexión sobre la problemática planteada

15

  • Realiza el proceso de preparación de los datos.

20

  • Realiza el procedimiento necesario para lograr levantar un clúster en Azure

15

  • Visualiza los datos capturados en las tablas de Hive.

15

  • Elabora una presentación electrónica ejecutiva con toda la información de la propuesta y sus conclusiones.

20