Dask可以将超过计算资源池可用内存的大型数据集“装载”进内存,然后像Pandas、Numpy等数据处理工具一样,对数据进行处理。它屏蔽了数据的分批装载和计算过程,让开发者更专注于数据本身的逻辑。使用上,仅需pip install dask,即可在本地使用,用法可参考上面的链接。以下简单示例在16G内存电脑上,处理存储在多个csv文件中的20G期货tick数据(实际上仅使用2G内存):
import dask.dataframe as dd
df = dd.read_csv("../future-quotation/2020.8.3~2020.9.18.期货全市场行情数据/DataTimeStream/*.csv",
names = [
"localtime",
"InstrumentID",
"TradingDay",
"ActionDay",
"UpdateTime",
"UpdateMillisec",
"LastPrice",
"Volume",
"HighestPrice",
"LowestPrice",
"OpenPrice",

本文介绍如何使用Dask处理超出内存限制的大规模数据集,通过示例展示如何读取并处理20GB的期货tick数据,仅占用2GB内存。文章演示了数据的清洗、计算及分组聚合操作。
最低0.47元/天 解锁文章
747

被折叠的 条评论
为什么被折叠?



