自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

转载 Spark开发性能调优

Spark开发性能调优标签(空格分隔): Spark–Write By Vin1. 分配资源调优Spark性能调优的王道就是分配资源,即增加和分配更多的资源对性能速度的提升是显而易见的,基本上,在一定范围之内,增加资源与性能的提升是成正比的,当公司资源有限,能分配的资源达到顶峰之后,那么才去考虑做其他的调优如何分配及分配哪些资源在生产环境中,提交spark作业时,使用spark...

2019-08-04 16:57:38 288

转载 JVM 优化实战

本文转载自:https://kefeng.wang/2016/11/22/java-jvm/目录1 GC相关内存1.1 内存划分1.2 JVM内存分配策略2 JVM优化原则2.1 优化目标2.2 优化方法3 服务端开启 JMX/jstatd3.1 设置系统环境变量3.2 开启 JMX(指定端口 1090)3.3 开启 jstatd agent(默认端口 ...

2019-06-26 08:26:35 593

转载 kafka读写速度快的原因

KAFKA是分布式发布-订阅消息系统,是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。现在被广泛地应用于构建实时数据管道和流应用的场景中,具有横向扩展,容错,快等优点,并已经运行在众多大中型公司的生产环境中,成功应用于大数据领域,本文分享一下我所了解的KAFKA。【KAFKA高吞吐率性能揭秘】KAFKA的第一个突出特定就是“快”,而且是那...

2019-06-25 19:08:07 1112

转载 硬盘的读写原理

本文转载自:https://blog.youkuaiyun.com/hguisu/article/details/7408047硬盘的种类主要是SCSI 、IDE 、以及现在流行的SATA等;任何一种硬盘的生产都要一定的标准;随着相应的标准的升级,硬盘生产技术也在升级;比如 SCSI标准已经经历了SCSI-1 、SCSI-2、SCSI-3;其中目前咱们经常在服务器网站看到的 Ultral-160就是基于S...

2019-06-25 18:12:43 247

转载 机械硬盘的存储结构及原理

本文转载自:https://blog.youkuaiyun.com/u013125075/article/details/86576640硬盘是电脑主要的存储媒介之一。根据硬盘的读写方式和存储方式不同,当前主流的硬盘可以分为固态硬盘(SSD硬盘)、机械硬盘(HDD 硬盘)两种。由于固态硬盘存在价格昂贵、容量较小和一旦损坏难以修复等特点,当前市场主要流行的依然是机械硬盘。当然,在高端计算机中通常会结合...

2019-06-25 13:06:58 12681 1

转载 Spark重点之shuffle全过程

本文原文地址:https://www.cnblogs.com/itboys/p/9201750.html什么时候需要 shuffle writer假如我们有个 spark job 依赖关系如下我们抽象出来其中的rdd和依赖关系:E <-------n------, C <--n---D---n-----F--s---, ...

2019-06-24 12:34:50 189

转载 Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势

本文转发自技术世界,原文链接 http://www.jasongj.com/spark/skew/目录摘要为何要处理数据倾斜(Data Skew)什么是数据倾斜数据倾斜的危害数据倾斜是如何造成的如何缓解/消除数据倾斜避免数据源的数据倾斜 ———— 读Kafka避免数据源的数据倾斜 ———— 读文件原理案例总结调整并行度分散同一个Task的不同Ke...

2019-06-23 17:50:56 273

原创 [spark] SparkSQL知识点全集整理

SparkSQL是一个用于处理结构化数据的spark组件,主要强调的是“结构化”,让开发者少写代码、降低开发成本、提升数据分析执行效率、shark是SparkSQl的前身。目录简介DataFrame对比RDD:DataFrame常见创建方式:SparkSQL读写数据1、与RDD交互2、读写本地文件3、读写parquet4、读写json5、读写mysql...

2019-06-20 09:08:38 875

原创 HIVE语法基础及实战----干货

目录基础了解Hive使用场景?安装Hive内部介绍启动hive:基础操作Hiverc文件数据类型和文件格式数据定义表操作修改表数据导出Hql查询Join优化模式设计调优开发Hive权限管理Hive运行原理基础了解hive为什么会出现?MapReduce无非就是一套计算模型,但是使用Hadoop的API来实现这种...

2019-06-19 08:20:55 692

原创 [spark] Standalone模式下Driver资源调度及Executor分配流程

注:本文接上一篇文章【[spark] standalone集群模式Driver启动过程 】继续说明Driver在启动之后,如何申请资源的一个流程......目录思路:步骤:总结:思路:在Standalone模式下集群启动时,Worker会向Master注册,使得Master可以感知进而管理整个集群;Master通过借助Zookeeper,可以简单实现高可用性;而应用...

2019-06-18 18:59:18 1255

原创 [spark] standalone集群模式Driver启动过程

本篇文章简单整理一下spark在standalone集训模式下启动Driver的流程,本篇文章只解析到Driver启动成功,启动后续任务执行在后面博客更新,个人比较喜欢从代码跟踪,文章代码粘贴只提取部分重要代码。。。。。。一、脚本查看spark-submit触发任务的提交,查看spark-submit脚本会看出最终执行任务的主类是:exec "${SPARK_HOME}"/...

2019-06-17 20:55:26 986

原创 [spark] Standalone模式下worker启动流程

注:spark版本2.1.1,启动模式:Standalone ,需要启动Master和Worker守护进程一、脚本分析start-all.sh中会直接启动start-slaves.shstart-slaves.sh中会调用org.apache.spark.deploy.master.Worker二、源码解析org.apache.spark.deploy.mas...

2019-06-17 16:27:28 846

原创 [spark] Standalone模式下Master启动流程

注:spark版本2.1.1,启动模式:Standalone ,需要启动Master和Worker守护进程一、脚本分析start-all.sh中会直接启动start-master.shstart-master.sh二、源码解析org.apache.spark.deploy.master.Master1、Master主类进入main方法,main方法主要是创建RP...

2019-06-17 15:18:52 782

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除