01_pyspark_rdd的创建

最新推荐文章于 2024-05-03 11:33:35 发布

原创最新推荐文章于 2024-05-03 11:33:35 发布 · 724 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #分布式

spark 专栏收录该内容

4 篇文章

订阅专栏

本文介绍了如何在PySpark中创建RDD，包括通过并行化集合和读取外部文件两种方式，是理解大数据处理和分布式计算的基础。

RDD的创建

rdd的创建主要有两种形式：

通过并行化集合创建RDD
读取外部文件来创建RDD

import findspark

findspark.init()
from pyspark import SparkContext, SparkConf

if __name__ == '__main__':
    conf = SparkConf().setMaster('local[*]').setAppName('rdd_create')
    sc = SparkContext(conf=conf)

    # 通过并行化集合创建RDD
    lis = [1, 2, 3, 4]
    rdd = sc.parallelize(lis, 2)  # 对象， 分区数
		# 如果默认分区，分区数由local[*]来决定，这和当前机器的cpu核数有关
	
    # 读取外部文件来创建
    rdd2 = sc.textFile('./可口可乐.txt')
    # 参数1 必填 读取文件的路径 也支持读取HDFS
    # 参数2 分区数，但是该参数是没有话语权的，spark会有自己的判断
    # rdd3 = sc.wholeTextFiles('')  # 适用于小文件读取的API
    print(rdd.collect())
    print(rdd2.collect())