RDD的创建
rdd的创建主要有两种形式:
- 通过并行化集合创建RDD
- 读取外部文件来创建RDD
import findspark
findspark.init()
from pyspark import SparkContext, SparkConf
if __name__ == '__main__':
conf = SparkConf().setMaster('local[*]').setAppName('rdd_create')
sc = SparkContext(conf=conf)
# 通过并行化集合创建RDD
lis = [1, 2, 3, 4]
rdd = sc.parallelize(lis, 2) # 对象, 分区数
# 如果默认分区,分区数由local[*]来决定,这和当前机器的cpu核数有关
# 读取外部文件来创建
rdd2 = sc.textFile('./可口可乐.txt')
# 参数1 必填 读取文件的路径 也支持读取HDFS
# 参数2 分区数,但是该参数是没有话语权的,spark会有自己的判断
# rdd3 = sc.wholeTextFiles('') # 适用于小文件读取的API
print(rdd.collect())
print(rdd2.collect())
本文介绍了如何在PySpark中创建RDD,包括通过并行化集合和读取外部文件两种方式,是理解大数据处理和分布式计算的基础。
2123

被折叠的 条评论
为什么被折叠?



