Learning Pyspark 笔记小结(一)

本文是关于PySpark的学习笔记,涵盖了基础概念、数据处理和核心API的使用,旨在帮助读者快速掌握PySpark数据处理能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

环境配置

https://blog.youkuaiyun.com/u011513853/article/details/52865076

RDD

弹性分布式数据集

Create RDD

从文件读取Lines=sc.textFile(‘path/filename’) ,每行默认为一个元素。

直接导入

data = sc.parallelize(

[('Amber', 22), ('Alfred', 23), ('Skye',4), ('Albert', 12),

('Amber', 9)]) 并且parallelize的内容可以是tuple list dict任何格式。 后面加.Collect() 则可使用python正常切片查找进行查找。Collect可以显示结果。

操作类型

Transformation

构造一个新的RDD,永远返回RDD格式:

常见函数:.filter(),.map()

*括号为lambda函数或自定义函数

使用语句:a= lines.filter(lambda:…)

Map:map是将源RDD的一个一个元素的传入call方法,并经过算法后一个一个的返回从而生成一个新的RDD,依次更改所有元素

Filter:返回一个新的数据集,由经过func函数后返回值为true的原元素组成

Flatmap: 将一条 rdd数据使用你定义的函数给分解成多条 rdd数据。每个元素产生多个返回值

Distinct:从RDD中摘取所有不同的类别。

Sample:返回随机样本,第一个参数表示是否放回,第二个表示返回数据的fraction?,第三个是seed

Leftouterjoin:与SQL leftjoin相同,同样还有join函数

Union:将两个RDD进行合并操作,同样还有Cartesian、intersection、subtract、distinct(很昂贵)

errorsRDD =

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值