文件按关键字分组-切割-染色-写入excel

原创

已于 2023-07-30 09:34:16 修改 · 857 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#excel #python

于 2023-07-28 14:37:44 首次发布

该文描述了一个使用Pythonpandas库处理CSV文件的过程，首先按fid字段排序并分割文件，每个fid对应一个单独的CSV。然后，它检测并标记了在各列中的重复数据元素，将重复值用红色突出显示，并将结果保存为Excel文件。

1. 背景

针对下面的文件data.csv，首先根据fid进行排序，然后分组，使相同fid的记录放到同一个excel文件中，并对每列重复的数据元素染上红色。

fid,user_id
-1000078398032092029,230410010036537520
-1000078398032092029,230423010026993942
-1000078398032092029,230505010027684603
-101241766345369238,210911010005526495
-101241766345369238,211017010017923011
-101241766345369238,230113010029633164
-101241766345369238,230514010028256452
-101241766345369238,230518010036813773
-1045165137456710,220401010038956742
-1045165137456710,220401010038956742
-1050918014514687463,210805010001898014
-1050918014514687463,210805010001898014
-111（手动添加一个结束标志）

2. 分组切割文件

import pandas as pd
pd.set_option('display.max_rows', None)

# 根据fid对文件进行分割，每个fid一个文件
def split_df_by_fid():
    df = pd.read_csv('data.csv', dtype=str)
    row_split_list = []  # 记录分割点索引
    current_fid = '-1000078398032092029'  # 第一个fid
    start = 0
    end