Mapreduce剔除缺失数据信息大于n个字段的记录
Mapreduce剔除缺失数据信息大于n个字段的记录
1.一开始的思路是如何去重置计数器,在map阶段的时候,计数时,如果大于等于n个字段时删除,并重置计数器,开始下一行计数,但是在map阶段的时候,没有去重置计数器,map自动为我们重置了,当时很纳闷,后来找了数据测试一下发现,map阶段每执行一行数据之后,会重新执行一次map,这也就说说,我们在计数一行的数据之后,map会重新的执行,也就把计数器重置了!!!下面是测试的代码
2.数据文件:
代码:
public class Test {
原创
2021-11-27 11:33:01 ·
1782 阅读 ·
0 评论