1. 背景
针对下面的文件data.csv,首先根据fid进行排序,然后分组,使相同fid的记录放到同一个excel文件中,并对每列重复的数据元素染上红色。
fid,user_id
-1000078398032092029,230410010036537520
-1000078398032092029,230423010026993942
-1000078398032092029,230505010027684603
-101241766345369238,210911010005526495
-101241766345369238,211017010017923011
-101241766345369238,230113010029633164
-101241766345369238,230514010028256452
-101241766345369238,230518010036813773
-1045165137456710,220401010038956742
-1045165137456710,220401010038956742
-1050918014514687463,210805010001898014
-1050918014514687463,210805010001898014
-111(手动添加一个结束标志)
2. 分组切割文件
import pandas as pd
pd.set_option('display.max_rows', None)
# 根据fid对文件进行分割,每个fid一个文件
def split_df_by_fid():
df = pd.read_csv('data.csv', dtype=str)
row_split_list = [] # 记录分割点索引
current_fid = '-1000078398032092029' # 第一个fid
start = 0
end

该文描述了一个使用Pythonpandas库处理CSV文件的过程,首先按fid字段排序并分割文件,每个fid对应一个单独的CSV。然后,它检测并标记了在各列中的重复数据元素,将重复值用红色突出显示,并将结果保存为Excel文件。
最低0.47元/天 解锁文章
1998

被折叠的 条评论
为什么被折叠?



