Scaling to large datasets — pandas 2.1.4 documentation
https://pandas.pydata.org/docs/user_guide/scale.html#use-efficient-datatypes官方文档提供了4种方法:只加载需要的列、转化数据类型、使用chunking(转化文件存储格式)、使用Dask(使用多进程/线程加载数据)。
pd_csv.to_parquet(file_path_p) #将文件从原始的csv格式转为parquet格式
data = pd.read_parquet(file_path_p,columns=columns) #加载特定column
data['Timestamp_day'] = data['Timestamp_day'].astype("category") #把数据类型为Object且取值较为有限的列转为Category,以减少内存占用
print(data.dtypes) # 查看各列的数据类型
print(data.memory_usage(deep=True)) #查看各列的空间占用

本文介绍了在Pandas2.1.4中处理大规模数据的四种方法:按需加载列、数据类型转换、分块读取(如CSV到Parquet),以及利用Dask进行并行处理。特别提到了将数据转换为Category类型以减小内存占用的技术。
7608

被折叠的 条评论
为什么被折叠?



