大数据之PySpark的RDD创建和分区

「已注销」

已于 2023-06-23 17:07:48 修改

阅读量771

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Spark 文章标签：大数据 hadoop spark

于 2023-05-15 00:01:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43339889/article/details/130653205

Spark 专栏收录该内容

10 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了PySpark中RDD的创建，包括通过SparkContext的parallelize方法创建和使用wholeTextFiles读取小文件创建。同时，文章讨论了RDD分区的概念，指出分区数与并行度的关系以及如何合理设置分区数以优化性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

前言
一、RDD创建
二、RDD分区数
总结

前言

上篇文章对PySpark的RDD做了简单的介绍，以及总结了RDD的特性，该篇文章主要介绍RDD的创建方式，PySpark的RDD创建方式主要有两种，一种是在程序中直接创建，另一种是通过加载外部系统创建。

一、RDD创建

创建SparkContext对象
SparkContext为Spark程序的入口，代表和Spark集群的链接，Spark集群中通过SparkContext创建RDD，创建SparkContext对象前需要先创建SparkConf，该SparkConf对象用来传递应用的基本信息。
并行化方式创建RDD
第一步已经得到SparkContext对象，通过该对象的parallelize方法即可创建RDD，该方法需要传入可迭代的对象或集合；

使用SparkContext对象时可以指定分区数量
<

了解本专栏

超级会员免费看

「已注销」

博客等级

码龄7年

58
原创

136
点赞

91
收藏

135
粉丝

关注

私信

热门文章

分类专栏

Spark 付费 10篇
Java 付费 13篇
Python 1篇
大数据 2篇
Kafka 4篇
总结 1篇
Phoenix 4篇
Hive 7篇
Hadoop 7篇
ZooKeeper 3篇
HBase 3篇
Linux 2篇
Doris 1篇

展开全部收起

上一篇：: 大数据之PySpark的RDD介绍

下一篇：: 我的创作纪念日

最新评论

Python学习之路
Gauss松鼠会: 很详细的记录，边学边记录，很好的内容，赞
大数据之PySpark的RDD创建和分区
Gauss松鼠会: 每一个步骤都很详细，很好的指导
大数据导航栏帖
神秘泣男子: 这是一篇高质量的好文，深度理解和清晰的表达方式使复杂的技术概念变得容易理解，值得收藏点赞。博主用心很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，期盼博主能够光顾我的博客，给予宝贵的指导！
Python学习之路
Srlua小谢: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文
大数据之RDD的算子分类
经海路大白狗: 内容很好，读完后，让我学到了很多

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

「已注销」 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。