spark RDD编程实践例子

本文深入解析Spark 2.0中sparksession的使用方法,对比早期版本的sparkconf和context,涵盖数据加载、配置、运行模式设置及RDD转换操作等关键知识点。

本文把spark基本操作函数方法详细描述,并应用实践

sparkSesion :是对在spark 2.0后出现了 sparksession 的方法来声明
spark conf 和context :是spark 早期版本的数据生成RDD和配置 RDD的 方法

// Sample
val sparkSession = SparkSession.builder().appName(s"${this.getClass.getSimpleName}")
.config(“spark.serializer”, “org.apache.spark.serializer.KryoSerializer”)
.master(“local[2]”)
.getOrCreate()

sparkSession.textFile 获取数据加载的目录
spark.config 》设置数据序列化的方式
sparksession.master 设置运行模式setMaster主要是连接主节点,如果参数是”local”,则在本地用单线程运行spark,如果是 local[4],则在本地用4核运行
.getOrCreate () 建立RDD

常用的spark的RDD转换操作,个人理解哈,有错误清见谅~
fliter 对数据内容进行匹配操作
map 对数据进行分成 Array 后进行函数式操作
flatMap 对数据的分成最少数据单元,后进行函数操作
groupByKey 对数组中的 key 数值进行分组
reduceByKey 对key值域进行聚合归并操作
paralleize 区分成多个RDD

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值