Competencia del certificado:
Diseña e implementa una infraestructura de Big Data y Analítica eficiente y confiable, acorde a las necesidades de cualquier tipo de organización multinacional.
Instrucciones:
- Lee con atención el siguiente caso de estudio:
Superstore es una cadena de supermercados localizada en Estados Unidos y Canadá, que vende todo tipo de artículos para el hogar, así como ropa, electrodomésticos y como alimentos. Su estrategia comercial radica en disminuir los precios de los productos entre un 15-45% sobre las ofertas de la competencia.
Como experto en análisis de datos y Big Data, intente descubrir las áreas débiles en las que se puede trabajar para obtener más ganancias y prepare una infraestructura de Big Data adecuada para gestionar la toma decisiones a partir la información de la empresa que se tiene en estos momentos o se tendrá en un futuro.
Parte 1
- Prepara el ambiente de Python en el equipo de cómputo donde se realizará la evidencia, para ello puedes instalar de forma local el programa Anaconda o utilizar la herramienta en la nube Google Colaboratory.
- Para realizar esta evidencia vas a utilizar el conjunto de datos localizado en este enlace: https://www.kaggle.com/itssuru/super-store , descarga este dataset a tu computadora o área de trabajo.
- Una vez que se tengan los datos, realiza lo siguiente:
- Importa el conjunto de datos a un cuaderno de Jupyter
- Elabora un diccionario de datos.
- Diseña un diagrama de datos.
- Desarrolla un análisis descriptivo, el cual incluirás la descripción detallada de cada una de las categorías definidas dentro del conjunto datos.
- Llevar a cabo un análisis exploratorio de los datos con la finalidad de entender y localizar hallazgos realizando al menos 3 diferentes visualizaciones, las cuales tiene como punto de partida, hacerse preguntas como:
- ¿Qué categorías de productos se venden más?
- ¿Qué ciudad compra más productos de tecnología?
Nota: puedes hacer este análisis usando alguna herramienta de visualización de datos como Tableau. Para ello, debes crear una de Tableau Public y realiza la instalación en tu computadora desde https://public.tableau.com/en-us/s/download
- Elaborar una reflexión sobre la problemática planteada que incluya la respuesta a las siguientes preguntas:
Proyecto
- ¿Qué necesitas aprender para poder desarrollar la solución o soluciones de esta propuesta?
- ¿Qué deberás hacer para desarrollar tu solución?
- ¿Los datos a usar son adecuados para desarrollar la solución propuesta?
Datos
- ¿Qué tipos de datos se analizarán?
- ¿Qué atributos (columnas) de los datos te parecen útiles para hacer tu análisis?
- ¿Qué atributos parecen irrelevantes y pueden ser excluidos?
- ¿Hay datos suficientes (filas) para sacar conclusiones generalizables o hacer predicciones precisas?
- ¿Qué otras fuentes de datos podrías integrar? ¿para qué te servirían?
- ¿Qué calidad tienen los datos?, ¿hay faltantes? ¿tienes algún plan para manejar los valores faltantes?
- Realiza el proceso de preparación de los datos necesaria para utilizar el modelo de K-means con la finalidad de realizar una segmentación adecuada a tu problemática.
Parte 2
- Realicen el procedimiento necesario para lograr levantar con éxito un clúster, el cual debe incluir evidencia detallada de la realización de los siguientes pasos:
- Creación de una cuenta para estudiantes de Microsoft Azure.
- Ingreso al portal de Microsoft Azure.
- Localización de Azure HDInsight dentro de la sección all resources.
- Generación de un clúster HDInsght.
- Monitoreo del estado del clúster creado mediante Ambari Views.
- Selección de la configuración Data Lake Storage Gen1, justificando esta elección y explicando sus capacidades y ventajas.
- Una vez descargados los archivos con la información de la cadena de tiendas Superstore, realicen el proceso para cargar estos archivos (en formato .zip) al clúster que ha sido creado.
- Realicen el proceso para conectarte al clúster creado mediante SSH.
- Ahora descompriman el archivo con la información de la cadena de tiendas Superstore que descargaron en el paso 9.
- Realicen el proceso para crear un directorio dentro del storage generado por el cluster y copia los archivos csv que descomprimieron en el paso 11.
- Después de descomprimir el archivo, deberán generar una tabla con HQL en Hive para almacenar los datos.
- Generen contenido para ese archivo mediante la ejecución de varios queries (consultas).
- Ahora inicien Hive y ejecuten el archivo creado.
- Una vez que el archivo haya sido ejecutado satisfactoriamente, realicen el proceso para abrir una sesión interactiva de Beeline.
- Realicen al menos una consulta desde la consola que permita obtener información sobre los estados donde más se venden teléfonos celulares. Señalen además en que espacio se guardan.
- Ahora realicen el proceso para lograr visualizar los datos capturados en las tablas de Hive. Recuerden que se busca conocer que se debe mejorar para aumentar las ventas de Superstore.
Nota:
Realicen la acción anterior basándose en las siguientes indicaciones:
- Descarguen la versión más actual de Power BI desde https://powerbi.microsoft.com/en-us/
Importante: No hay versiones de Power BI para Mac o Linux. Si este es su caso pueden utilizar la versión web de la herramienta.
- Deberán crear un nuevo reporte.
- Los datos para visualizar se obtienen desde el menú: Home / Get Data / More…
- Una vez seleccionada la opción para obtener los datos, se debe elegir OBDC.
- Seleccionen la base de datos que han creado.
- Durante el primero uso de la herramienta, esta abrirá una pantalla de ODBC, en la cual deberán seleccionar la opción predeterminada.
- Realizado el proceso de carga de los datos, seleccionen los campos que consideren necesarios para crear los gráficos.
- Realicen al menos tres gráficas diferentes.
- Generen un dashboard con las visualizaciones creadas.
- Elaboren una presentación electrónica ejecutiva que señale la implementación de la infraestructura realizada y el dashboard creado mediante Power BI para el proyecto, incluyendo tus conclusiones.
Criterios de evaluación.
|
Puntaje |
- Realiza el análisis exploratorio de los datos
|
15 |
- Elabora una reflexión sobre la problemática planteada
|
15 |
- Realiza el proceso de preparación de los datos.
|
20 |
- Realiza el procedimiento necesario para lograr levantar un clúster en Azure
|
15 |
- Visualiza los datos capturados en las tablas de Hive.
|
15 |
- Elabora una presentación electrónica ejecutiva con toda la información de la propuesta y sus conclusiones.
|
20 |