使用Dask装载和处理远远超过可用内存资源的市场或行情数据

最新推荐文章于 2025-09-21 17:34:07 发布

原创

最新推荐文章于 2025-09-21 17:34:07 发布 · 545 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #Dask

本文介绍如何使用Dask处理超出内存限制的大规模数据集，通过示例展示如何读取并处理20GB的期货tick数据，仅占用2GB内存。文章演示了数据的清洗、计算及分组聚合操作。

Dask可以将超过计算资源池可用内存的大型数据集“装载”进内存，然后像Pandas、Numpy等数据处理工具一样，对数据进行处理。它屏蔽了数据的分批装载和计算过程，让开发者更专注于数据本身的逻辑。使用上，仅需pip install dask，即可在本地使用，用法可参考上面的链接。以下简单示例在16G内存电脑上，处理存储在多个csv文件中的20G期货tick数据（实际上仅使用2G内存）：

import dask.dataframe as dd
df = dd.read_csv("../future-quotation/2020.8.3~2020.9.18.期货全市场行情数据/DataTimeStream/*.csv", 
                  names = [    
                      "localtime",                        
                      "InstrumentID",
                      "TradingDay",
                      "ActionDay",
                      "UpdateTime",
                      "UpdateMillisec",
                      "LastPrice",
                      "Volume",
                      "HighestPrice",
                      "LowestPrice",
                      "OpenPrice",