01_pyspark_rdd的创建

本文介绍了如何在PySpark中创建RDD,包括通过并行化集合和读取外部文件两种方式,是理解大数据处理和分布式计算的基础。

RDD的创建

rdd的创建主要有两种形式:

  1. 通过并行化集合创建RDD
  2. 读取外部文件来创建RDD
import findspark

findspark.init()
from pyspark import SparkContext, SparkConf

if __name__ == '__main__':
    conf = SparkConf().setMaster('local[*]').setAppName('rdd_create')
    sc = SparkContext(conf=conf)

    # 通过并行化集合创建RDD
    lis = [1, 2, 3, 4]
    rdd = sc.parallelize(lis, 2)  # 对象, 分区数
		# 如果默认分区,分区数由local[*]来决定,这和当前机器的cpu核数有关
	
    # 读取外部文件来创建
    rdd2 = sc.textFile('./可口可乐.txt')
    # 参数1 必填 读取文件的路径 也支持读取HDFS
    # 参数2 分区数,但是该参数是没有话语权的,spark会有自己的判断
    # rdd3 = sc.wholeTextFiles('')  # 适用于小文件读取的API
    print(rdd.collect())
    print(rdd2.collect())

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值