first,show,take,collect,tail的用法

最新推荐文章于 2024-05-15 23:01:56 发布

原创最新推荐文章于 2024-05-15 23:01:56 发布 · 540 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文深入解析RDD的各种操作，如first(), head(), show(), take(), collect()和tail()等方法的底层实现与应用场景。详细阐述了这些方法如何触发Spark作业执行，以及在大数据处理中可能遇到的内存溢出问题。

first() = head(1) head() 底层调用 take()

show() 底层调用的take() 多了一层类型转换将值转化为字符串多了truncate参数，截取字符串功能,RDD没有show方法

take() 调用 collect() + limit()，如果这里面传入的n非常大，会导致OutOfMemoryError，这个方法应该只在预期结果数组很小的情况下使用，因为所有的数据都被加载到驱动程序的内存中。由于内部实现的复杂性，如果在无或空的RDD上调用此方法，将引发异常。

collect()触发runjob()执行任务，这个方法应该只在预期结果数组很小的情况下使用，因为所有的数据都被加载到驱动程序的内存中。如果数据量很大会导致OutOfMemoryError

tail() 返回dataframe最后一行，可能会OOM

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。