Actividad

Objetivo

El participante aplicará sus conocimientos para ejecutar un ejercicio utilizando Apache Spark.

Instrucciones

Revisa los siguientes recursos que te servirán como base para realizar esta actividad:

Microsoft. (2020). Inicio rápido: Creación de un clúster de Apache Spark en Azure HDInsight mediante Azure Portal. Recuperado de https://docs.microsoft.com/es-mx/azure/hdinsight/spark/apache-spark-jupyter-spark-sql-use-portal
Microsoft. (2020). Tutorial: Carga de datos y ejecución de consultas en un clúster de Apache Spark en Azure HDInsight. Recuperado de https://docs.microsoft.com/es-es/azure/hdinsight/spark/apache-spark-load-data-run-query
Microsoft. (2020). Tutorial: Compilación de aplicaciones de aprendizaje automático de Apache Spark en Azure HDInsight. Recuperado de https://docs.microsoft.com/es-es/azure/hdinsight/spark/apache-spark-ipython-notebook-machine-learning

Como parte de esta actividad, crea un clúster HDInsight con Apache Spark.

Notas:

Esta aplicación utiliza los datos de ejemplo que se presentan en el archivo HVAC.csv, los cuales se encuentran disponibles en todos los clústeres de manera predeterminada. El archivo se encuentra en: \HdiSamples\HdiSamples\SensorSampleData\hvac
Los datos de este archivo señalan la temperatura objetivo y la temperatura real de algunos edificios que tienen sistemas de calefacción, ventilación y aire acondicionado instalados. La columna System señala el identificador del sistema y la columna SystemAge el número de años que lleva este sistema (HVAC) alojado en el edificio.

Ahora crea un cuaderno de Jupyter Notebook. Para ello, edita la dirección URL https://SPARKCLUSTER.azurehdinsight.net/jupyter; para lograrlo, reemplaza SPARKCLUSTER por el nombre del clúster de Spark. Después, escribe la dirección URL editada en cualquier explorador web y escribe (cuando te lo indique) las credenciales de inicio de sesión del clúster.
Localiza la página web de Jupyter y elige New (Nuevo) > PySpark para crear el nuevo cuaderno.
Realiza la importación de las librerías de PySpark en una celda del Jupyter Notebook:

from pyspark.sql import *
from pyspark.sql.types import *

Al realizar el proceso de importación aparecerá un número identificador ID. Posteriormente, recupera los detalles de la sesión. Para poder hacerlo, ingresa a https://CLUSTERNAME.azurehdinsight.net/livy/sessions/ID/statements, donde CLUSTERNAME es el nombre del clúster de Spark y el identificador es el número de identificación de la sesión.

Fuente: Microsoft. (2020). Tutorial: Carga de datos y ejecución de consultas en un clúster de Apache Spark en Azure HDInsight. Recuperado de https://docs.microsoft.com/es-es/azure/hdinsight/spark/apache-spark-load-data-run-query

Ejecuta el siguiente código que nos permitirá generar una trama de datos y una tabla temporal (hvac):

# Create a dataframe and table from sample data
csvFile = spark.read.csv('/HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv', header=True, inferSchema=True)
csvFile.write.saveAsTable("hvac")

Ahora lleva a cabo una consulta de estos datos. Para ello, ejecuta el siguiente código:

%%sql
SELECT buildingID, (targettemp - actualtemp) AS temp_diff, date FROM hvac WHERE date = \"6/1/13\"
Una vez realizado, te mostrará la siguiente tabla:

Fuente: Microsoft. (2020). Tutorial: Carga de datos y ejecución de consultas en un clúster de Apache Spark en Azure HDInsight. Recuperado de https://docs.microsoft.com/es-es/azure/hdinsight/spark/apache-spark-load-data-run-query

Con base en la tabla señalada del punto anterior, genera una salida de los datos con una visualización diferente.
Realiza un documento con una sección titulada “Evidencias”, en donde agregarás la secuencia de las tomas de pantalla de cada ejercicio desarrollado en cada uno de los pasos anteriores.

Checklist

Presentar en el documento la evidencia del proceso de la creación del cuaderno de Jupyter, la importación de las librerías, la recuperación de los detalles de la sesión y generar la trama y tabla solicitada