- 博客(2)
- 收藏
- 关注
原创 Mapreduce剔除缺失数据信息大于n个字段的记录
Mapreduce剔除缺失数据信息大于n个字段的记录1.一开始的思路是如何去重置计数器,在map阶段的时候,计数时,如果大于等于n个字段时删除,并重置计数器,开始下一行计数,但是在map阶段的时候,没有去重置计数器,map自动为我们重置了,当时很纳闷,后来找了数据测试一下发现,map阶段每执行一行数据之后,会重新执行一次map,这也就说说,我们在计数一行的数据之后,map会重新的执行,也就把计数器重置了!!!下面是测试的代码2.数据文件:代码:public class Test {
2021-11-27 11:33:01
1779
原创 Spark处理csv文件
Spark处理csv文件:csv数据如下:首先是如何去除第一行:将"header"设置为"true",意思是把csv文件的第一行不作为表头将"header"设置为"fasle"意思是把csv文件的第一行作为表头第二步将文件转为DataFrame:创建数组接收,这样处理的好处是:需要哪几列数据根据数组下标提取即可之后toDF设置每列的表头,结果如下:...
2021-09-11 09:31:33
2047
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人