最近想用python批量处理数据,把自己网上找答案的过程整理了一下,希望对大家有用。
问题:
一个文件夹中有38个txt文件,这38个txt的命名各不相同,要把这38个txt文件中的数据整合到一个txt中。
思路:
获取所有txt文件的名称、路径,然后用for循环遍历每个txt文件,进行处理。最后将处理后的数据合并。
先看下总体代码,后面有具体解释。
import pandas as pd
import numpy as np
import os
os.getcwd()
os.chdir('/Users/Heihei/Desktop/EX2data/data')
path = '/Users/Heihei/Desktop/EX2data/data'
os.listdir(path)
datalist = []
for i in os.listdir(path):
if os.path.splitext(i)[1] == '.txt':
datalist.append(i)
df = pd.DataFrame()
for txt in datalist:
data_path = os.path.join(path,txt)
df_txt = pd.read_table(data_path,index_col = False)
df_txt['sub_n'] = txt[:2]
df_txt_sx = df_txt[df_txt['split'].isin([1,2])]
df = pd.concat([df,df_txt_sx],axis=0, ignore_index=True)
df.head(5)
df.tail(5)
df.shape
df.isnull().sum()
df.duplicated().sum()
df.to_csv('/Users/Heihei/Desktop/EX2data/data/Tota

最低0.47元/天 解锁文章
3965

被折叠的 条评论
为什么被折叠?



