关于pyspark的collect

最新推荐文章于 2024-09-11 22:33:50 发布

DDDknight1109

最新推荐文章于 2024-09-11 22:33:50 发布

阅读量4.8k

点赞数 1

分类专栏：分布式大数据文章标签： pyspark collect

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/davidemiya/article/details/101311934

版权

分布式同时被 2 个专栏收录

2 篇文章

订阅专栏

2 篇文章

订阅专栏

collect是pyspark中可以将rdd转换为list的转换操作，虽然很好用，但也需要注意，不是可以随心所欲地用的。

collect的读取相当于从所有分布式机器上把数据拉下来放在本地展示：

这个操作一方面把分布式变成了单机操作，失去了分布式的意义；

另一方面就是存放本地会消耗相当一部分的内存；当rdd很大时，内存溢出会直接导致程序卡死。

所以如果只想看看数据格式，用take取样就可以了。

但如果一定要做相关执行，可以把rdd中需要处理的数据部分用map提出来，再collect()，一定程度上减少内存的使用，不要一股脑地collect。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。