1、使用nrows和skip_rows来读取。提前申明dtype和usecols,可以节省内存空间。
train_data=pd.read_csv(train_dir,skiprows=range(1,SKIP_ROWS),nrows=TRAIN_ROWS,dtype=dtypes,usecols=use_cols)2、如果要兼顾内存和速度。可以使用reader来分块阅读。在创建reader的时候,并没有真正读取数据,等到for循环的时候才读取。
train_reader=pd.read_csv(train_dir,iterator=True,chunksize=chunk_size,dtype=dtypes,usecols=use_cols)在for循环中,才真正读取数据。
for chunk in train_reader :
train_data=pd.concat([train_data,chunk],ignore_index=True)3、要善用垃圾回收,及时删除不需要的变量
del test_data
gc.collect()4、对数据进行类型转换,及时减少内存。
train_data[col_name]=train_data[col_name].astype('uint8')

本文介绍了几种高效读取CSV文件的方法,包括利用pandas库的特定参数如nrows、skiprows、dtype和usecols等来优化内存使用;通过迭代读取大文件并使用垃圾回收机制来平衡内存和速度;以及如何通过数据类型转换进一步减少内存占用。
3428

被折叠的 条评论
为什么被折叠?



