用pandas读取一个文件或某个文件夹下所有文件

最新推荐文章于 2023-11-25 10:17:48 发布

原创最新推荐文章于 2023-11-25 10:17:48 发布 · 1.5w 阅读

36 ·

CC 4.0 BY-SA版权

特征工程与数据分析专栏收录该内容

31 篇文章

订阅专栏

本文介绍如何使用Python批量读取指定目录下所有文件，并将读取到的数据整合到一个DataFrame中。通过示例代码展示了如何利用os.path和pandas的concat方法实现这一过程，同时强调了正确设置分隔符的重要性。

部署运行你感兴趣的模型镜像

读取一个文件：

直接用文件路径。

如果是读取某个文件夹下的所有文件，注意用os.path,逐个读取文件，把新读取到的Dataframe进行concate操作到总的Dataframe中去。详细请见代码。


character_list =['1010011_i_u_prov',  '9010081_i_b_location']
#这是读取一个文件的，
# data=pd.read_csv('../data/10line_of_part-00000',sep='\t',header=None)
# 如果读取所有文件呢？如下

file_dir="../data/dt=20200807"
all_file_list=os.listdir(file_dir)
for single_file in all_file_list:
    # 逐个读取 
    single_data_frame=pd.read_csv(
            os.path.join(file_dir,single_file),sep='\t',header=None)
	if single_file ==all_file_list[0]:
		all_data_frame=single_data_frame
	else:  #进行concat操作       
         all_data_frame=pd.concat([all_data_frame,
                    single_data_frame],ignore_index=True)

# data.columns=character_list，给dataframe的属性重新命名。
all_data_frame.columns=character_list

备注：

data数据是从sql中select出来的结果。

注意：分隔符要用\t，不然会报错！

您可能感兴趣的与本文相关的镜像