环境配置 |
https://blog.youkuaiyun.com/u011513853/article/details/52865076 |
RDD |
弹性分布式数据集 |
Create RDD |
从文件读取Lines=sc.textFile(‘path/filename’) ,每行默认为一个元素。 直接导入 data = sc.parallelize( [('Amber', 22), ('Alfred', 23), ('Skye',4), ('Albert', 12), ('Amber', 9)]) 并且parallelize的内容可以是tuple list dict任何格式。 后面加.Collect() 则可使用python正常切片查找进行查找。Collect可以显示结果。 |
操作类型 |
Transformation 构造一个新的RDD,永远返回RDD格式: 常见函数:.filter(),.map() *括号为lambda函数或自定义函数 使用语句:a= lines.filter(lambda:…) Map:map是将源RDD的一个一个元素的传入call方法,并经过算法后一个一个的返回从而生成一个新的RDD,依次更改所有元素 Filter:返回一个新的数据集,由经过func函数后返回值为true的原元素组成 Flatmap: 将一条 rdd数据使用你定义的函数给分解成多条 rdd数据。每个元素产生多个返回值 Distinct:从RDD中摘取所有不同的类别。 Sample:返回随机样本,第一个参数表示是否放回,第二个表示返回数据的fraction?,第三个是seed Leftouterjoin:与SQL leftjoin相同,同样还有join函数 Union:将两个RDD进行合并操作,同样还有Cartesian、intersection、subtract、distinct(很昂贵) errorsRDD = |
Learning Pyspark 笔记小结(一)
最新推荐文章于 2024-08-20 09:22:10 发布