RDD编程

本文深入探讨了Spark的RDD编程,包括如何从文件系统和并行集合创建RDD,详细介绍了reduceByKey、groupByKey、keys、values、mapValues及join等操作。还讨论了RDD的持久化机制,解释了如何利用persist()方法提高效率,并阐述了广播变量和累加器在优化计算过程中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 RDD创建

RDD创建有两种形式,1:从外部读取数据源,外部可指本地系统、HDFS系统等;2:调用SparkContext的parallelize方法,在Driver中一个已经存在的集合(数组)上创建。

1.1 演示前提
启动hadoop和spark-shell
>>start-dfs.sh   //启动hadoop
>>sprak-shell  //启动spark
>>hadoop fs -copyFromLocal /home/hadoop/sample.txt input
//将本地文件上传到分布式系统

在这里插入图片描述

1.2 从文件系统中加载数据创建RDD

在这里插入图片描述

1.3 通过并行集合创建RDD

在这里插入图片描述

2 RDD操作

RDD操作一般为转换和行动操作,转换表示一种RDD转换为另一种RDD,行动表示在RDD上进行非修改性操作。

常用转换操作: 说明
filter(func) 筛选出满足函数func的元素
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值