需求来源:有俩文件,里面存着很多公司信息,但是有重复的,由于数据量太大,因此,决定写个小脚本,用spark跑一下
先看一下文件格式,origin为原始公司信息数据,spider为爬虫抓取的数据

整体逻辑:
文件求并集 ==> map 对公司名做hash用以做索引 ==> 根据公司名的hash值做groupby,取首位数据 ==> 保存文件
1、主文件:

2、工具包:
processinfo:

关于company.scala中滤重:

本文介绍了一种使用Spark处理两个大型文件中重复公司信息的方法。通过将数据进行合并,利用hash函数对公司名称进行索引,并根据索引进行分组以保留唯一记录。此过程能够高效地从大量数据中去除重复项。
需求来源:有俩文件,里面存着很多公司信息,但是有重复的,由于数据量太大,因此,决定写个小脚本,用spark跑一下
先看一下文件格式,origin为原始公司信息数据,spider为爬虫抓取的数据

整体逻辑:
文件求并集 ==> map 对公司名做hash用以做索引 ==> 根据公司名的hash值做groupby,取首位数据 ==> 保存文件
1、主文件:

2、工具包:
processinfo:

关于company.scala中滤重:

6762
4516
2796
1万+
4761
1253

被折叠的 条评论
为什么被折叠?