批量合并不同文件夹内的多个csv文件

原创已于 2024-01-08 16:45:46 修改 · 5.1k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言 #后端

于 2022-03-03 16:45:15 首次发布

Python 同时被 2 个专栏收录

277 篇文章

订阅专栏

程序员

276 篇文章

订阅专栏

博客围绕Python批量合并不同文件夹内的多个CSV文件展开，给出简单和灵活两种方案，涉及文件操作、文件夹处理和csv库使用。此外，还谈及程序员职业发展，提到大公司有优秀同事、丰富资料，最后进行岗位内推和Python资料咨询引导。

批量合并不同文件夹内的多个csv文件

这是婵平@罗敬芳的留言：

“婵平，希望学个知识：不同文件夹内的多个csv文件批量合并
这里面有三个知识点：

文件的基本操作：读文件，写文件
对文件夹的驾驭
csv库的使用

我给两个方案，一个简单方案，一个灵活方案。

为了支持简单方案，我们先做如下假设：

1.这些csv文件格式都是相同的。这个假设对灵活方案也是需要的。

2.有两个文件夹d1，d2，下面分别放着一个csv文件

目标是把这2个文件合并成一个csv文件。

在这里插入图片描述
file1内容：

name,age,score
张三,12,98
李四,14,88
婵平,15,99

file2内容：

name,age,score
Tom,12,98
Jack,14,88
Marry,15,99

简单实现

下面是一个简单的实现，文件夹和文件的名字都是写死的。虽然不是最好的方案，但对学习还是有帮助的：

import csv 

# 打开结果文件，名为all.csv
with open('all.csv', 'w') as result:
    # 把结果文件转成一个csv写入器对象
    csv_writer = csv.writer(result)

    # 打开第一个文件
    with open('d1/file1.csv') as file:
        # 把源文件转成一个csv读入器
        csvreader = csv.reader(file)
        # 循环读入每一行
        for row in csvreader:
            # 调用写入器写入一行
            csv_writer.writerow(row)
    
    # 打开第2个文件
    with open('d2/file2.csv') as file:
        csvreader = csv.reader(file)
        # 跳过第一行，否则会出现重复的csv文件的头
        next(csvreader)
        for row in csvreader:
            csv_writer.writerow(row) 

print('合并后的结果：')
with open('all.csv') as result:
    for row in result:
        # 注意打印时加上end=''，否则会出现多余的空行
        print(row, end='')

如果在Windows上，生成的csv文件也许会有多余的空行，这时候可以把下面的代码：

with open('all.csv', 'w') as result:

改成：

with open('all.csv', 'w', newline='') as result:

注意里面有段逻辑是防止文件header重复。

好一点的方案

下面这个方案要灵活多了。可以自己定义多个文件夹，还可以支持文件夹下任意数量的csv文件：

import csv 
from os import listdir

# 目录列表
dirs = ['d1', 'd2']

# 打开结果文件
with open('all.csv', 'w') as result:
    # 把结果文件转成一个csv写入器对象
    csv_writer = csv.writer(result)
    # 判定是否已经添加了header行
    is_header_added = False 

    # 循环目录
    for dir in dirs:
        # 循环目录中所有的文件
        for filename in listdir(dir):
            # 找到csv文件
            if filename.endswith('.csv'):
                with open(f'{dir}/{filename}') as file:
                    csvreader = csv.reader(file)

                    # 读取文件的header行
                    header = next(csvreader)
                    # 目标文件只添加一次header
                    if not is_header_added:
                        csv_writer.writerow(header)
                        is_header_added = True 

                    # 添加数据行
                    for row in csvreader:
                        csv_writer.writerow(row)               

print('合并后的结果：')
with open('all.csv') as result:
    for row in result:
        # 注意打印时加上end=''，否则会出现多余的空行
        print(row, end='')

注释写的还算清楚，这里就不多说了。

这个方案应该算比较灵活了，例子中是用的相对路径，假设目录就在当前运行Python的目录下。如果把目录改成绝对路径应该也是可以的。

职业发展

作为一个代码打工仔，对于绝大部分程序员来说，想要成为牛逼的真正挣钱程序员的路还很长，一刻都不能懈怠。

我们无法从HR角度，或者技术leader的角度来臆测哪种状态的面试更能获取面试官青睐。但通过我们积攒的大量的面试经验，大家多少可以推断一些成为有竞争力的程序员的一些必要条件。

大佬云集、资料丰富

当初我在字节认识一个非常非常资深的前辈，他到字节比我早三年，但因为各种原因级别不是很高。我当时问他，既然你对现状如此不满，为什么不想着离开寻找更好的机会呢？

他沉思了片刻跟我说，他说我现在在这里虽然待着不顺心，但是我接触到的人都是非常优秀的。我遇到问题，还可以和你们讨论讨论。我如果出去了，我要是再遇到问题，可能连一个讨论的人都没有。

我当时听听只是觉得有道理，现在再回想起来，感受非常深刻。三观、格局、能力，能够进入大公司的，这三个方面一般都不会太差。别的不说，就拿个人能力而言，我曾出国出差过几个月，有幸见识了许多各种海外名校的同事，和他们学习交流人工智能，这真的让我AI有了更深层次的认识。

除了优秀的同事之外，大公司里往往还有丰富的内部文档和资料。我当时在字节内部看到了很多优秀的文章，也有很多优秀的技术沙龙和分享。现在想起来两年下来，也没有去过几次，文章和资料看得也不算多，现在想想颇为遗憾。别的不说，就拿推荐领域而言，近些年质量不错的论文往往都来源于大公司尤其是国内的大公司，以腾讯、华为和头条为主。除了公开的论文，公司内部还有很多技术相关的资料和文档，这些真的可以说是有价无市，非常珍贵。

Python 知识手册