记一次千万数据去重和关联字段的坑

本文记录了一次处理千万级数据去重和关联字段的实践,原先通过SQL、Excel和视图的方式效率低下,耗时长。采用新方案,将数据导出为CSV,用Python处理后导入MySQL,并对用户表的userid字段建立索引,显著提升了处理速度。Python处理大数据的高效及建立索引的重要性在此过程中得到体现。

一、需求

一个mysql的数据库,其中一张交易记录表order,有千万的数据,另一张用户表user,有26k的数据。首先要把order表中的交易记录去重,再把user表中的username通过userid字段关联到order中去,最后导出关联好的数据。

二、处理

电脑使用的Mac pro 32g

(一)原处理方案

(1)sql方式去重

在order表中使用sql语句来去重,涉及重复的字段有三个。
代码如下:

// sql 去重(示例)
select  * from order c1 left join user c2 
on c1.userid=c2.userid and c1.id < c2.id

运行速度很慢,等待半小时后,见不到效果,果断放弃;

(2)用excel方式去重

按每50万条记录分别导出20余个xlsx文件,然后用excel分别去重,再导入回mysql中等待关联username字段。

(3)用视图view关联username字段

分别将20余个去重完毕再导回mysql的表与user关联,再导出含有username字段的excel文件,也是20余个。

(二)新处理方案

(1)将order表导出为csv文件,然后利用python编写几条语句处理;

// python去重csv
import pandas as pd
mydata = pd.read_csv('/Users/nono/Order.csv')
data = mydata.drop_duplicates(subset=[
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值