批量合并不同文件夹内的多个csv文件
这是婵平@罗敬芳的留言:
“婵平,希望学个知识:不同文件夹内的多个csv文件批量合并
这里面有三个知识点:
- 文件的基本操作:读文件,写文件
- 对文件夹的驾驭
- csv库的使用
我给两个方案,一个简单方案,一个灵活方案。
为了支持简单方案,我们先做如下假设:
1.这些csv文件格式都是相同的。这个假设对灵活方案也是需要的。
2.有两个文件夹d1,d2,下面分别放着一个csv文件
目标是把这2个文件合并成一个csv文件。
file1内容:
name,age,score
张三,12,98
李四,14,88
婵平,15,99
file2内容:
name,age,score
Tom,12,98
Jack,14,88
Marry,15,99
简单实现
下面是一个简单的实现,文件夹和文件的名字都是写死的。虽然不是最好的方案,但对学习还是有帮助的:
import csv
# 打开结果文件,名为all.csv
with open('all.csv', 'w') as result:
# 把结果文件转成一个csv写入器对象
csv_writer = csv.writer(result)
# 打开第一个文件
with open('d1/file1.csv') as file:
# 把源文件转成一个csv读入器
csvreader = csv.reader(file)
# 循环读入每一行
for row in csvreader:
# 调用写入器写入一行
csv_writer.writerow(row)
# 打开第2个文件
with open('d2/file2.csv') as file:
csvreader = csv.reader(file)
# 跳过第一行,否则会出现重复的csv文件的头
next(csvreader)
for row in csvreader:
csv_writer.writerow(row)
print('合并后的结果:')
with open('all.csv') as result:
for row in result:
# 注意打印时加上end='',否则会出现多余的空行
print(row, end='')
如果在Windows上,生成的csv文件也许会有多余的空行,这时候可以把下面的代码:
with open('all.csv', 'w') as result:
改成:
with open('all.csv', 'w', newline='') as result:
注意里面有段逻辑是防止文件header重复。
好一点的方案
下面这个方案要灵活多了。可以自己定义多个文件夹,还可以支持文件夹下任意数量的csv文件:
import csv
from os import listdir
# 目录列表
dirs = ['d1', 'd2']
# 打开结果文件
with open('all.csv', 'w') as result:
# 把结果文件转成一个csv写入器对象
csv_writer = csv.writer(result)
# 判定是否已经添加了header行
is_header_added = False
# 循环目录
for dir in dirs:
# 循环目录中所有的文件
for filename in listdir(dir):
# 找到csv文件
if filename.endswith('.csv'):
with open(f'{dir}/{filename}') as file:
csvreader = csv.reader(file)
# 读取文件的header行
header = next(csvreader)
# 目标文件只添加一次header
if not is_header_added:
csv_writer.writerow(header)
is_header_added = True
# 添加数据行
for row in csvreader:
csv_writer.writerow(row)
print('合并后的结果:')
with open('all.csv') as result:
for row in result:
# 注意打印时加上end='',否则会出现多余的空行
print(row, end='')
注释写的还算清楚,这里就不多说了。
这个方案应该算比较灵活了,例子中是用的相对路径,假设目录就在当前运行Python的目录下。如果把目录改成绝对路径应该也是可以的。
职业发展
作为一个代码打工仔,对于绝大部分程序员来说,想要成为牛逼的真正挣钱程序员的路还很长,一刻都不能懈怠。
我们无法从HR角度,或者技术leader的角度来臆测哪种状态的面试更能获取面试官青睐。但通过我们积攒的大量的面试经验,大家多少可以推断一些成为有竞争力的程序员的一些必要条件。
大佬云集、资料丰富
当初我在字节认识一个非常非常资深的前辈,他到字节比我早三年,但因为各种原因级别不是很高。我当时问他,既然你对现状如此不满,为什么不想着离开寻找更好的机会呢?
他沉思了片刻跟我说,他说我现在在这里虽然待着不顺心,但是我接触到的人都是非常优秀的。我遇到问题,还可以和你们讨论讨论。我如果出去了,我要是再遇到问题,可能连一个讨论的人都没有。
我当时听听只是觉得有道理,现在再回想起来,感受非常深刻。三观、格局、能力,能够进入大公司的,这三个方面一般都不会太差。别的不说,就拿个人能力而言,我曾出国出差过几个月,有幸见识了许多各种海外名校的同事,和他们学习交流人工智能,这真的让我AI有了更深层次的认识。
除了优秀的同事之外,大公司里往往还有丰富的内部文档和资料。我当时在字节内部看到了很多优秀的文章,也有很多优秀的技术沙龙和分享。现在想起来两年下来,也没有去过几次,文章和资料看得也不算多,现在想想颇为遗憾。别的不说,就拿推荐领域而言,近些年质量不错的论文往往都来源于大公司尤其是国内的大公司,以腾讯、华为和头条为主。除了公开的论文,公司内部还有很多技术相关的资料和文档,这些真的可以说是有价无市,非常珍贵。
Python 知识手册
Linux 知识手册
爬虫查询手册
而且,这些资料不是扫描版的,里面的文字都可以直接复制,非常便于我们学习:
数据分析知识手册:
机器学习知识手册:
金融量化知识手册:
岗位内推、学习交流
我们大量需要前端岗位、python岗位、Java 岗位、Android 和 iOS 的开发岗位,工作地点:北京字节,欢迎校招社招扫描下方二维码找我内推
Python资料、技术、课程、解答、咨询也可以直接点击下面名片,
添加官方客服斯琪
↓