Spark 前言 Spark 知识系列文章 一、RDD弹性分布式数据集 1.1 RDD定义以及框架 1.2 特点 1.3 创建RDD 1.4 算子 1.5 RDD依赖关系 1.5.1 窄依赖 1.5.2 宽依赖 1.6 RDD任务划分 1.7 RDD数据分区器 1.7.1 Hash分区 1.7.2 Ranger分区(很少使用) 二、 累加器 2.1 运用累加器求数据之和 三、 广播变量:分布式只读共享变量 - 调优策略 总结 前言 本文介绍有关Spark的三大数据结构:RDD、广播变量、累加器的相关知识。 Spark 知识系列文章 此处罗列了有关Spark相关知识的其他文章,有需要的可以进行点击查阅。 Spark 之 Spark框架及部署 Spark 之 RDD转换算子 Spark 之 RDD行动算子 Spark 之 SparkSQL Spark 之 SparkStreaming 一、RDD弹性分布式数据集 1.1 RDD定义以及框架 RDD是最基本的逻辑抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合; 图片展示的是用Spark实现WordCount案例,具体实现在Spark 之 Spark框架及部署博文中展示过了;