Actividad


Objetivo

El participante aplicará sus conocimientos para ejecutar un ejercicio utilizando Apache Spark.

Instrucciones

  1. Revisa los siguientes recursos que te servirán como base para realizar esta actividad:
  2. Microsoft. (2020). Inicio rápido: Creación de un clúster de Apache Spark en Azure HDInsight mediante Azure Portal. Recuperado de https://docs.microsoft.com/es-mx/azure/hdinsight/spark/apache-spark-jupyter-spark-sql-use-portal
    Microsoft. (2020). Tutorial: Carga de datos y ejecución de consultas en un clúster de Apache Spark en Azure HDInsight. Recuperado de https://docs.microsoft.com/es-es/azure/hdinsight/spark/apache-spark-load-data-run-query
    Microsoft. (2020). Tutorial: Compilación de aplicaciones de aprendizaje automático de Apache Spark en Azure HDInsight. Recuperado de https://docs.microsoft.com/es-es/azure/hdinsight/spark/apache-spark-ipython-notebook-machine-learning

  3. Como parte de esta actividad, crea un clúster HDInsight con Apache Spark.

  4. Notas:


  5. Ahora crea un cuaderno de Jupyter Notebook. Para ello, edita la dirección URL https://SPARKCLUSTER.azurehdinsight.net/jupyter; para lograrlo, reemplaza SPARKCLUSTER por el nombre del clúster de Spark. Después, escribe la dirección URL editada en cualquier explorador web y escribe (cuando te lo indique) las credenciales de inicio de sesión del clúster.
  6. Localiza la página web de Jupyter y elige New (Nuevo) > PySpark para crear el nuevo cuaderno.
  7. Realiza la importación de las librerías de PySpark en una celda del Jupyter Notebook:
  8. Al realizar el proceso de importación aparecerá un número identificador ID. Posteriormente, recupera los detalles de la sesión. Para poder hacerlo, ingresa a https://CLUSTERNAME.azurehdinsight.net/livy/sessions/ID/statements, donde CLUSTERNAME es el nombre del clúster de Spark y el identificador es el número de identificación de la sesión.
  9. Fuente: Microsoft. (2020). Tutorial: Carga de datos y ejecución de consultas en un clúster de Apache Spark en Azure HDInsight. Recuperado de https://docs.microsoft.com/es-es/azure/hdinsight/spark/apache-spark-load-data-run-query

  10. Ejecuta el siguiente código que nos permitirá generar una trama de datos y una tabla temporal (hvac):
  11. # Create a dataframe and table from sample data
    csvFile = spark.read.csv('/HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv', header=True, inferSchema=True)
    csvFile.write.saveAsTable("hvac")

  12. Ahora lleva a cabo una consulta de estos datos. Para ello, ejecuta el siguiente código:
  13. %%sql
    SELECT buildingID, (targettemp - actualtemp) AS temp_diff, date FROM hvac WHERE date = \"6/1/13\"
    Una vez realizado, te mostrará la siguiente tabla:

    Fuente: Microsoft. (2020). Tutorial: Carga de datos y ejecución de consultas en un clúster de Apache Spark en Azure HDInsight. Recuperado de https://docs.microsoft.com/es-es/azure/hdinsight/spark/apache-spark-load-data-run-query

  14. Con base en la tabla señalada del punto anterior, genera una salida de los datos con una visualización diferente.
  15. Realiza un documento con una sección titulada “Evidencias”, en donde agregarás la secuencia de las tomas de pantalla de cada ejercicio desarrollado en cada uno de los pasos anteriores.

Checklist