一、需求
一个mysql的数据库,其中一张交易记录表order,有千万的数据,另一张用户表user,有26k的数据。首先要把order表中的交易记录去重,再把user表中的username通过userid字段关联到order中去,最后导出关联好的数据。
二、处理
电脑使用的Mac pro 32g
(一)原处理方案
(1)sql方式去重
在order表中使用sql语句来去重,涉及重复的字段有三个。
代码如下:
// sql 去重(示例)
select * from order c1 left join user c2
on c1.userid=c2.userid and c1.id < c2.id
运行速度很慢,等待半小时后,见不到效果,果断放弃;
(2)用excel方式去重
按每50万条记录分别导出20余个xlsx文件,然后用excel分别去重,再导入回mysql中等待关联username字段。
(3)用视图view关联username字段
分别将20余个去重完毕再导回mysql的表与user关联,再导出含有username字段的excel文件,也是20余个。
(二)新处理方案
(1)将order表导出为csv文件,然后利用python编写几条语句处理;
// python去重csv
import pandas as pd
mydata = pd.read_csv('/Users/nono/Order.csv')
data = mydata.drop_duplicates(subset=[

本文记录了一次处理千万级数据去重和关联字段的实践,原先通过SQL、Excel和视图的方式效率低下,耗时长。采用新方案,将数据导出为CSV,用Python处理后导入MySQL,并对用户表的userid字段建立索引,显著提升了处理速度。Python处理大数据的高效及建立索引的重要性在此过程中得到体现。
最低0.47元/天 解锁文章
1万+





