- 博客(3)
- 资源 (1)
- 收藏
- 关注
原创 Spark系列文章二——Spark数据倾斜及调优
摘要相信大家在使用Spark进行大数据计算的时候,都遇到过一个问题——数据倾斜。当发生数据倾斜的时候,spark程序就会发生运行效率低下,甚至发生内存溢出异常,导致任务失败。为了防止这种情况,开发人员就需要使用技术手段进行数据调优,保证Spark运行效率。 本文将从spark数据倾斜的现象、原理、倾斜代码定位及调优四个方面来详细描述Spark数据倾斜及调优,希望小伙伴们看完本文之后会有所收获。一、数据倾斜现象。数据倾斜的体现主要表现在以下两方面。1、任务中极大...
2021-10-21 00:00:14
281
原创 Spark系列文章一:Spark 提交任务流程详解
一、spark提交任务流程概述1.1、流程概述1、构建spark执行环境(初始化sparkcont);2、SparkContext向资源管理器注册并申请Executor资源;3、资源管理器分配Executor资源,Executor向资源管理器发送心跳汇报状态;4、Executor向sc注册并申请task;5、sc向Executor发送task,Executor执行task;6、运行完成后,sc向资源管理器申请注销资源。1.2、流程图解(多图)二、spark...
2021-10-18 12:47:28
8688
1
原创 Hadoop详解系列——一文读懂HDFS
一、概述目录一、概述二、HDFS核心设计2.1、HDFS心跳机制2.2、HDFS安全模式(SafeMode)2.2.1、NameNode进入SafeMode 的方式2.2.2、如何退出SafeMode2.2.3 安全模式常用命令总结2.3、副本存放策略及机架感知2.3.1 原理2.3.2、总结2.4、负载均衡三、HDFS 工作机制3.1、HDFS的写流程3.1.1、流程概述3.1.2、步骤图详解3.1.3、详细文字说明(大白话图解)..
2021-09-17 15:38:41
1145
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人