
Spark
浪灬迹-红尘少年
天地本无主,男儿当自强
展开
-
Spark运行机制及提交过程
Spark运行机制:依赖:宽依赖和窄依赖,RDD具有分区 宽依赖:多个子RDD的分区依赖同一个父RDD的分区,类似reduceByKey;在父RDD的角度,理解为超生; 窄依赖:父RDD的每个分区最多被一个子RDD使用,类似map();在父RDD的角度,理解为独生; 依赖和分区 分区:RDD分区指分布式计算 依赖...原创 2020-04-02 10:36:27 · 209 阅读 · 0 评论 -
Spark缓存级别
惰性求值-------------------------------- 1.定义: 在RDD行动操作之前,不触发计算。转换操作和创建操作、控制操作均为惰性的; 只有行动操作可触发Job。缓存cache----------------------------------- 1.spark的缓存级别参照【org.apache.spark.s...原创 2020-03-31 13:07:03 · 437 阅读 · 1 评论 -
Spark行动操作Action
1.定义:触发Job,调用runJob()方法: 比如:collect、count 2.foreach 说明:将结果返回值执行器节点,而非驱动器(collect), 3.aggregate def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U,...原创 2020-03-31 13:00:17 · 331 阅读 · 0 评论 -
Spark常用算子
Spark常见算子及说明map:将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。输入分区与输出分区一对一,即:有多少个输入分区,就有多少个输出分区。 flatMap:同Map算子一样,最后将所有元素放到同一集合中; distinct:将RDD中重复元素做去重处理,针对Array[String]类型,将String对象视为字符串数组; coalesce:将RDD的分区数...原创 2020-03-31 12:32:23 · 269 阅读 · 0 评论 -
Spark集群模式相关概念
SparkContext:Spark上下文:作用:连接Spark集群,用户创建RDD、累加器和广播。RDD:Resilient Distributed Dataset,弹性式分布式数据集:RDD代表一个不可变的,可并行操作的元素分区集合。RDD4种类型:a.创建RDD:3类(parallelize:将Seq序列数据转化为RDD、textFile将外部文件转化RDD、makeRDD将...原创 2020-03-09 16:01:42 · 177 阅读 · 0 评论 -
Spark和Hadoop容易混淆的概念
集群架构方面:Standalone模式:集群遵循主从架构,主(Master进程)从(Worker进程)On Yarn模式:集群遵循主从架构,主(ResourceManager进程)从(NodeManager)以上两种模式的主从进程都会在集群开启...原创 2020-03-07 15:06:39 · 152 阅读 · 0 评论 -
Spark独立应用的创建
下载IntalliJIDEA 创建Scala工程(略) 新建工程-创建Maven工程; 导入scala包 加载spark-core_2.11依赖库 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</art...原创 2020-03-06 18:54:09 · 297 阅读 · 0 评论 -
Spark集群部署
Spark集群部署一共分为三种情况:stantalone模式,spark on Yarn模式,Meso模式,这里只说前两种模式搭建;Spark的Standalone模式部署:1)复制spark的conf目录下三个文件并且重新命名;$>cp spark-env.sh.template spark-env.sh 添加以下内容,注意:“=”附近无空格:...原创 2020-03-06 09:40:33 · 323 阅读 · 0 评论 -
Spark单机部署
spark版本选型:spark2.1.2。依赖scala2.11.8;说明:在这里可以根据自己的需要去官网下载spark版本,spark版本下面会有scala版本依赖说 明;根据需要下载。spark解压安装:上传spark安装包$cd /home/spark/soft (spark安装包存在路径)$>tar -zxvf spark-2.1.2-bin-hadoop2....原创 2020-03-05 18:21:35 · 919 阅读 · 0 评论 -
Spark介绍
Spark定义:是一个进行大规模数据处理的统一分析引擎;理解:Spark是数据分析用的,对大规模数据有更好的处理;Spark的速度优势:在迭代循环的计算模型下,spark比Hadoop快100倍;Spark速度优势原因:采用的DAG(有向无环图)调度+查询优化器+物理优化引擎;Spark易用性:spark提供多种语言的API,如Java、Python、Scala、R、SQL等;其他...原创 2020-02-23 09:40:17 · 234 阅读 · 0 评论