原文件user_item_behavior_history.csv有2亿多条数据,如果是用本机内存读取的话,在配置有限的情况下用普通的方法读取肯定是行不通的,会内存报错,
使用get_chunk方法,当chunkSize=10000000时,读取速度最快。
原理:把dataframe分为多个chunk,一个chunk有10000000条数据,最后再拼接成chunks就OK了。
import pandas as pd
# 增加列名'user_id', 'item_id', 'behavior_type','timestamp'
reader = pd.read_csv('./data/user_item_behavior_history.csv', header=None, names = ['user_id', 'item_id', 'behavior_type','timestamp'], iterator=True)
# 使用get_chunk方法获取数据
loop = True
chunkSize = 10000000 # 设置chunksize
chunks = []
import datetime
# start time
starttime = datetime.datetime.now()
# long running
while loop:
try:
chunk = reader.get_chunk(chunkSize)
chunks.append(chunk)
except StopIteration:
loop = False
print("Iteration is stopped.") # 迭代完成
# 拼接chunks
df = pd.concat(chunks, ignore_index=True)
# end time
endtime = datetime.datetime.now()
# 共计数据获取时间
print('loop_time:', (endtime - starttime).seconds)
这篇博客探讨了如何在内存有限的情况下处理大规模CSV数据,通过设置chunkSize为10000000,使用pandas的get_chunk方法分块读取2亿条用户行为历史数据,然后将所有块拼接成完整DataFrame,大大提升了数据读取效率。这种方法对于处理大型数据集非常有效。

802

被折叠的 条评论
为什么被折叠?



