今天简单介绍一下dask这个包,他是用来处理大数据的。类似于pandas。官方是这样介绍的:
Fast on Machines
Dask is lightweight, and runs your raw code on your machines without getting in the way. No virtualization or compilers.
As the Python stack matures your code matures. Today Dask is 50% faster than Spark on standard benchmarks.
比spark快50%,所以以后使用大数据分析可以考虑dask这个python包。
官方文档在这里 https://examples.dask.org/dataframe.html
我用数据大小194M,数据量104万条数据做测试。
1.pandas测试
import pandas as pd
import time
import dask.dataframe as dd
# 开始时间
start_time = time.time()
data = pd.read_csv(r'E:\下载\22年1月1日至24年12月31日航班数据.csv')
print(data.head())
# print(data.info)
print(data.columns)
# 结束时间
end_time = time.time()
# 计算运行时间
elapsed_time = end_time - start_time
print(f"程序运行时间:{elapsed_time:.6f} 秒")
很简单查看前5行数据,和查看列名。用时3.29秒。
2.dask测试
import pandas as pd
import time
import dask.dataframe as dd
# 开始时间
start_time = time.time()
df = dd.read_csv(r'E:\下载\22年1月1日至24年12月31日航班数据.csv',encoding='utf-8')
# 执行操作,例如计算每列的均值
# result = df.compute() # 注意:这会实际加载数据到内存中,但可以处理非常大的数据集
# print(result)
print(df.head())
print(df.columns)
# 结束时间
end_time = time.time()
# 计算运行时间
elapsed_time = end_time - start_time
print(f"程序运行时间:{elapsed_time:.6f} 秒")
结果显示:0.37秒