Spark distinct中numTasks含义

最新推荐文章于 2024-04-18 15:00:20 发布

专注于大数据技术栈

最新推荐文章于 2024-04-18 15:00:20 发布

阅读量393

点赞数 1

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_36932624/article/details/82964247

本文深入探讨了Spark中distinct算子的工作原理，特别是在不同numTasks参数设置下对数据集去重效果的影响。通过实验对比，解析了numTasks参数在数据处理中的作用，揭示了其如何影响数据的局部无序性和整体有序性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark中Transformation有个distinct([numTasks])算子

用于返回一个在源数据集去重之后的新数据集，即去重。

可一直没弄明白官方文档上提到的distinct方法中参数[numTasks]的具体含义，于是做了一下测试：

依次对numTasks值增大测试：

numTasks=1

numTasks=2

numTasks=3

numTasks=5

numTasks=10

numTasks=101

通过对比可以发现，这个numTasks并不跟分区有关系，而可以理解为一个数学概念中的“因子”。如果设置的numTasks能被数据集中元素整除，那么排序就按先无序的排因子，后无序排非因子的组合（即相当于局部无序）；如果设置的numTasks不能被数据集中所有元素整除，那么排序会按照去重之前RDD排序的顺序返回。

从这个numTasks=10中和numTasks=5中仔细观察可以确定这个“任务数”是将任务均分了，如5个任务数，那么一个任务集中元素个数为20个，从数据集中选择能被5整除的20个元素作为第一个数据集的结果，再选择能被5除之后余数为1的作为第二个数据集...以此类推，局部无序，而整体有序。

https://blog.youkuaiyun.com/fortuna_i/article/details/81506936

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。