## spark分区

最新推荐文章于 2024-11-04 20:41:40 发布

橙子倍多分

最新推荐文章于 2024-11-04 20:41:40 发布

阅读量188

点赞数 2

文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_64168693/article/details/133210714

版权

spark分区

1.spark可以分成两代，第一代是rdd，主要是用来分析日志文件比较多，rdd里面就涉及到了分区的概念，spark是怎么去执行一个程序的。到了第二代，sparksql，已经没有需要个人自己去分区了，更多是操纵表，写sql。

2.spark分区原则： (1)rdd分区的原则是尽量利用集群中的cpu数量，比如一个wordcount任务，一开始根据整个集群中cpu的个数，分成的份数尽量等于cpu核数，就可以充分利用cpu的资源。 (2)rdd在有两种创建方法，分别是parallelize()方法和textFile()方法，两种方法都可以设置分区。

3.parallelize()创建rdd分区分析

在创建rdd的时候，parallelize()中有个numSlices参数，是输入分区数的。比如想分成5个分区就填5。

下面是Spark的俩种换创建方式：

橙子倍多分

博客等级

码龄4年

2
原创

3
点赞

0
收藏

2
粉丝

关注

私信

热门文章

上一篇：: 7-2 螺旋方阵

最新评论

## spark分区
优快云-Ada助手: 评论：非常感谢作者分享关于spark分区和spark的创建方式的知识！这篇博文对于想要学习和了解spark分区的人来说非常有帮助。请继续分享你的经验和知识，这对读者来说是非常宝贵的。除了博文中提到的spark分区和创建方式，还有一些与之相关的扩展知识和技能可以进一步学习。例如，可以深入了解spark的数据分区策略，了解如何根据数据的特性选择合适的分区方式。此外，可以学习如何通过设置分区参数来优化spark作业的性能，以及如何在分区中处理数据倾斜等问题。希望你在以后的博文中能够继续分享关于spark的更多深入的知识和技巧。谢谢你的付出，期待你未来的创作！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
7-2 螺旋方阵
优快云-Ada助手: 恭喜您开始博客创作，这篇关于螺旋方阵的博客内容相当详细，让人不禁想学习更多。期待您未来更多优秀的博客作品！推荐【每天值得看】：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

7-2 螺旋方阵

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。