数据介绍:某电商平台2016年2月1日至2016年4月15日部分销售数据。分有两个表,一,用户行为表,五千万行数据。二,用户信息表。

思路:
一,清洗:
1,实验数据简化删掉一列
2,过滤掉重复值
3,根据用户行为逻辑过滤掉假客户
4,只保留用户行为表与用户信息表都有的用户





本文介绍了对某电商平台2016年2月1日至4月15日的五千万条销售数据进行清洗的过程。首先简化数据,删除无关列,接着去除重复值。再依据用户行为逻辑剔除虚假客户,并确保用户行为表与用户信息表的用户匹配。至此,数据清洗阶段完成。
数据介绍:某电商平台2016年2月1日至2016年4月15日部分销售数据。分有两个表,一,用户行为表,五千万行数据。二,用户信息表。

思路:
一,清洗:
1,实验数据简化删掉一列
2,过滤掉重复值
3,根据用户行为逻辑过滤掉假客户
4,只保留用户行为表与用户信息表都有的用户





1126
1329
7639
4446
2303

被折叠的 条评论
为什么被折叠?