当用pandas的read_csv函数或者是read_table函数读取文件时,如果遇到大的文件,需要分块读取,在这个基础上可以
读取指定行,比如读取标签全为0的行。
代码如下:
f = open(path + r'\train.csv')
reader = pd.read_csv(f, iterator=True, nrows=20000000)
loop = True
chunkSize = 100
chunks = []
while loop:
try:
chunk = reader.get_chunk(chunkSize)
chunks.append(chunk[chunk.is_attributed==1])
except StopIteration:
loop = False
print("Iteration is stopped.")
df = pd.concat(chunks, ignore_index=True)

本文介绍如何使用Pandas的read_csv函数分块读取大型CSV文件,并筛选特定条件的行,例如读取标签全为1的数据。
3578

被折叠的 条评论
为什么被折叠?



