
Spark
湖中屋
数据挖掘、大数据架构师,多年大数据开发经验。控制工程专业硕士研究生学历。
展开
-
Spark基础03 RDD算子02 转换算子案例 distinct groupByKey flatMap sortByKey join mapValues reduce fold
RDD distinct 全局去重 改变分区 /** distinct 去除重复数据 是一个转换算子 全局去重 改变分区 */ object DistinctDemo { def main(args: Array[String]): Unit = { val sc: SparkContext = SparkUtils.getSparkContext val seq = Seq(1, 2, 4, 5, 66, 66, 6, 5, 77, 77) //转换成RDD val rdd: RDD[Int]原创 2020-07-26 23:13:26 · 227 阅读 · 0 评论 -
Spark基础02 RDD算子01 转换算子 行动算子 分区数 三种RDD创建方式 控制台打印日志 map filter reduceByKey collect take
RDD 触发Action就会生成spark job RDD的全称为Resilient Distributed Dataset,是一个弹性、可复原的分布式数据集是Spark中最基本的抽象,是一个不可变的、有多个分区的、可以并行计算的集合。 RDD中并不装真正要计算的数据,而装的是描述信息,描述以后从哪里读取数据,调用了用什么方法,传入了什么函数,以及依赖关系等。 RDD特点 有一些列连续的分区:分区编号从0开始,分区的数量决定了对应阶段Task的并行度 有一个函数作用在每个输入切片上: 每一个分区都会生成原创 2020-07-26 17:09:33 · 314 阅读 · 0 评论 -
Spark基础01 简介 框架体系 安装部署 spark-shell使用 scala,Java,Lambda分别编写WordCount 打包运行 Debug运行
spark简介 快速、通用、可扩展的大数据分析引擎 (Java, Scala, Python, R and sql) 既可以做离线计算,也可以做实时计算 提供了统一的大数据处理解决方案 可以运行在各种资源调度框架和读写多种数据源 支持的多种部署方案 丰富的数据源支持。 1.MR只能做离线计算,如果实现复杂计算逻辑,一个MR搞不定,就需要将多个MR按照先后顺序连成一串, 一个MR计算完成后会将计算结果写入到HDFS中,下一个MR将上一个MR的输出作为输入, 这样就要频繁读写HDFS,网络IO和磁盘IO会成为性原创 2020-07-07 01:50:13 · 332 阅读 · 1 评论