大数据分析工具dask测试

今天简单介绍一下dask这个包,他是用来处理大数据的。类似于pandas。官方是这样介绍的:
Fast on Machines
Dask is lightweight, and runs your raw code on your machines without getting in the way. No virtualization or compilers.
As the Python stack matures your code matures. Today Dask is 50% faster than Spark on standard benchmarks.
比spark快50%,所以以后使用大数据分析可以考虑dask这个python包。
官方文档在这里 https://examples.dask.org/dataframe.html

我用数据大小194M,数据量104万条数据做测试。

1.pandas测试

import pandas as pd
import time
import dask.dataframe as dd
# 开始时间
start_time = time.time()
data = pd.read_csv(r'E:\下载\22年1月1日至24年12月31日航班数据.csv')
print(data.head())
# print(data.info)
print(data.columns)

# 结束时间
end_time = time.time()
# 计算运行时间
elapsed_time = end_time - start_time
print(f"程序运行时间:{elapsed_time:.6f} 秒")

在这里插入图片描述
很简单查看前5行数据,和查看列名。用时3.29秒。

2.dask测试

import pandas as pd
import time
import dask.dataframe as dd
# 开始时间
start_time = time.time()
df = dd.read_csv(r'E:\下载\22年1月1日至24年12月31日航班数据.csv',encoding='utf-8')
# 执行操作,例如计算每列的均值
# result = df.compute()  # 注意:这会实际加载数据到内存中,但可以处理非常大的数据集
# print(result)
print(df.head())
print(df.columns)
# 结束时间
end_time = time.time()
# 计算运行时间
elapsed_time = end_time - start_time
print(f"程序运行时间:{elapsed_time:.6f} 秒")

在这里插入图片描述
结果显示:0.37秒

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值