Sesi贸n 9. Dask

Tarea 7.


El objetivo de esta tarea es que los estudiantes comprendan c贸mo medir y comparar el rendimiento de dos bibliotecas populares para la manipulaci贸n de datos: Pandas y Dask. Se manejar谩n el .csv que se obtiene de la tarea de hdfs, realizar谩n operaciones b谩sicas con ambas bibliotecas, y evaluar谩n el rendimiento en t茅rminos de tiempo de ejecuci贸n. Se debe de tomar en cuenta que el dataset deber谩 pasar por un proceso de limpieza antes de ejecutarse en esta pr谩ctica.

Instrucciones:

  • Una vez se tenga el .csv de la tarea de hdfs proceder a realizar la limpieza correspondiente
  • Instalar librer铆as necesarias para su ejecuci贸n
  • Realizar una conclusi贸n sobre el rendimiento de los recursos.

Se adjunta el archivo dask.yml para crear el entorno de manera m谩s sencilla, en el nodo deben ejecutar:
-聽conda env create -f dask.yml

Ver Video Sesi贸n 9. HDFS y DASK

Dask Presentaci贸n
Tarea 7. Uso de DASK y HDFS.
 
 
Powered by Phoca Download