python读取大数据csv文件—亿级数据量

最新推荐文章于 2024-07-29 02:33:55 发布

原创最新推荐文章于 2024-07-29 02:33:55 发布 · 7.8k 阅读

47 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据分析

python 专栏收录该内容

15 篇文章

订阅专栏

这篇博客探讨了如何在内存有限的情况下处理大规模CSV数据，通过设置chunkSize为10000000，使用pandas的get_chunk方法分块读取2亿条用户行为历史数据，然后将所有块拼接成完整DataFrame，大大提升了数据读取效率。这种方法对于处理大型数据集非常有效。

原文件user_item_behavior_history.csv有2亿多条数据，如果是用本机内存读取的话，在配置有限的情况下用普通的方法读取肯定是行不通的，会内存报错，
使用get_chunk方法，当chunkSize=10000000时，读取速度最快。
原理：把dataframe分为多个chunk，一个chunk有10000000条数据，最后再拼接成chunks就OK了。

import pandas as pd
# 增加列名'user_id', 'item_id', 'behavior_type','timestamp'
reader = pd.read_csv('./data/user_item_behavior_history.csv', header=None, names = ['user_id', 'item_id', 'behavior_type','timestamp'], iterator=True)

# 使用get_chunk方法获取数据
loop = True
chunkSize = 10000000  # 设置chunksize
chunks = []

import datetime
# start time
starttime = datetime.datetime.now()

# long running
while loop:
    try:
        chunk = reader.get_chunk(chunkSize)
        chunks.append(chunk)
    except StopIteration:
        loop = False
        print("Iteration is stopped.")  # 迭代完成
# 拼接chunks        
df = pd.concat(chunks, ignore_index=True)

# end time
endtime = datetime.datetime.now()

# 共计数据获取时间
print('loop_time:', (endtime - starttime).seconds)