
Spark Core
文章平均质量分 75
江陵之月
本人是一个具有文艺范的程序员,是大数据工程师,家在成都,到一线城市打拼过,现在回到家乡发展,希望在优快云遇到志同道合的人
展开
-
Spark的容错机制
Spark的容错机制分布式数据集的容错Spark的容错机制Lineage机制依赖窄依赖宽依赖Checkpoint容错机制 分布式数据集的容错 方式:1)数据检查点:会发生拷贝,浪费资源 2)记录数据的更新:默认方式。在部分计算结果丢失时,只需要根据这个Lineage重算即可。每次更新都会记录下来,比较复杂且比较消耗性能 特点:Spark选择记录更新的方式 Spark的容错机制 对应:RDD的容错机制 分类:1)Lineage机制 2)Checkpoint机制 Lineage机制 含义:RDD的Lineage原创 2021-01-12 13:49:11 · 1328 阅读 · 0 评论 -
Spark UI
Spark Web UISpark Web UI实时UI管理JobsJobs DetailStagesStorageStorage DetailEnviromentExecutorSQL历史UI管理 Spark Web UI 分类:1)实时UI管理 2)历史UI管理 实时UI管理 分类:1)Jobs 2)Stages 3)Storage 4)Environment 5)Executors Jobs 作用:展示的是整个Spark应用任务的Job整体信息 特点:Job默认都是串行提交运行的,如果Job间没有依原创 2021-01-12 13:45:20 · 1813 阅读 · 0 评论 -
Spark的优化.集群优化
Spark的集群调优Spark的集群调优数据本地性存储格式Spark的内存溢出Driver内存不够读取数据太大Driver内存不够.数据回传Executor内存不够map类操作产生大量数据Shuffle后产生数据倾斜 Spark的集群调优 方式:1)防止不必要的jar重复分发 2)数据本地性 3)存储格式选择 4)资源隔离(打标签) 5)NM JVM参数优化 6)集群硬件环境 数据本地性 分类:1)PROCESS_LOCAL,第一选择 2)NODE_LOCAL,第二选择 3)ANY,第三选择 存储格式 分类原创 2021-01-12 13:40:22 · 176 阅读 · 0 评论 -
Spark的日志
Spark的日志YARN模式的日志查看聚合日志Web UI分散查看 YARN模式的日志查看 分类:1)聚合日志 2)Web UI 3)分散查看 聚合日志 别称:日志聚集 含义:YARN提供的日志中央化管理功能,它能将运行完成的Container/任务日志上传到HDFS上 参数:1)yarn.log-aggregation-enable 是否启用日志聚合功能,日志聚合开启后保存到HDFS上。默认为false 2)yarn.log-aggregation.retain-seconds 在HDFS上聚集的日志最多原创 2021-01-12 13:35:49 · 484 阅读 · 0 评论 -
Spark的度量
Spark的度量Spark的度量InstanceSourceSink Spark的度量 别称:Spark的度量系统 组件:1)Instance 2)Source 3)Sink Instance 含义:指定了度量系统的实例名 分类:1)Master 2)Worker 3)Application 4)Driver 5)Executor Source 含义:指定了从哪里收集度量数据,即度量数据的来源 分类:1)ApplicationSource 2)WorkerSource 3)DAGSchedulerSourc原创 2021-01-12 13:29:44 · 216 阅读 · 0 评论 -
Spark Core学习.WordCount代码
Spark Core学习.WordCount代码Spark Core的WordCount Java代码方式一方式二方式三方式四方式五方式六总结 Spark Core的WordCount Java代码 方式一 import java.util.Arrays; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; impo原创 2020-10-23 17:27:15 · 275 阅读 · 0 评论