- 博客(13)
- 收藏
- 关注
转载 Spark开发性能调优
Spark开发性能调优标签(空格分隔): Spark–Write By Vin1. 分配资源调优Spark性能调优的王道就是分配资源,即增加和分配更多的资源对性能速度的提升是显而易见的,基本上,在一定范围之内,增加资源与性能的提升是成正比的,当公司资源有限,能分配的资源达到顶峰之后,那么才去考虑做其他的调优如何分配及分配哪些资源在生产环境中,提交spark作业时,使用spark...
2019-08-04 16:57:38
288
转载 JVM 优化实战
本文转载自:https://kefeng.wang/2016/11/22/java-jvm/目录1 GC相关内存1.1 内存划分1.2 JVM内存分配策略2 JVM优化原则2.1 优化目标2.2 优化方法3 服务端开启 JMX/jstatd3.1 设置系统环境变量3.2 开启 JMX(指定端口 1090)3.3 开启 jstatd agent(默认端口 ...
2019-06-26 08:26:35
593
转载 kafka读写速度快的原因
KAFKA是分布式发布-订阅消息系统,是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。现在被广泛地应用于构建实时数据管道和流应用的场景中,具有横向扩展,容错,快等优点,并已经运行在众多大中型公司的生产环境中,成功应用于大数据领域,本文分享一下我所了解的KAFKA。【KAFKA高吞吐率性能揭秘】KAFKA的第一个突出特定就是“快”,而且是那...
2019-06-25 19:08:07
1112
转载 硬盘的读写原理
本文转载自:https://blog.youkuaiyun.com/hguisu/article/details/7408047硬盘的种类主要是SCSI 、IDE 、以及现在流行的SATA等;任何一种硬盘的生产都要一定的标准;随着相应的标准的升级,硬盘生产技术也在升级;比如 SCSI标准已经经历了SCSI-1 、SCSI-2、SCSI-3;其中目前咱们经常在服务器网站看到的 Ultral-160就是基于S...
2019-06-25 18:12:43
247
转载 机械硬盘的存储结构及原理
本文转载自:https://blog.youkuaiyun.com/u013125075/article/details/86576640硬盘是电脑主要的存储媒介之一。根据硬盘的读写方式和存储方式不同,当前主流的硬盘可以分为固态硬盘(SSD硬盘)、机械硬盘(HDD 硬盘)两种。由于固态硬盘存在价格昂贵、容量较小和一旦损坏难以修复等特点,当前市场主要流行的依然是机械硬盘。当然,在高端计算机中通常会结合...
2019-06-25 13:06:58
12681
1
转载 Spark重点之shuffle全过程
本文原文地址:https://www.cnblogs.com/itboys/p/9201750.html什么时候需要 shuffle writer假如我们有个 spark job 依赖关系如下我们抽象出来其中的rdd和依赖关系:E <-------n------, C <--n---D---n-----F--s---, ...
2019-06-24 12:34:50
189
转载 Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势
本文转发自技术世界,原文链接 http://www.jasongj.com/spark/skew/目录摘要为何要处理数据倾斜(Data Skew)什么是数据倾斜数据倾斜的危害数据倾斜是如何造成的如何缓解/消除数据倾斜避免数据源的数据倾斜 ———— 读Kafka避免数据源的数据倾斜 ———— 读文件原理案例总结调整并行度分散同一个Task的不同Ke...
2019-06-23 17:50:56
273
原创 [spark] SparkSQL知识点全集整理
SparkSQL是一个用于处理结构化数据的spark组件,主要强调的是“结构化”,让开发者少写代码、降低开发成本、提升数据分析执行效率、shark是SparkSQl的前身。目录简介DataFrame对比RDD:DataFrame常见创建方式:SparkSQL读写数据1、与RDD交互2、读写本地文件3、读写parquet4、读写json5、读写mysql...
2019-06-20 09:08:38
875
原创 HIVE语法基础及实战----干货
目录基础了解Hive使用场景?安装Hive内部介绍启动hive:基础操作Hiverc文件数据类型和文件格式数据定义表操作修改表数据导出Hql查询Join优化模式设计调优开发Hive权限管理Hive运行原理基础了解hive为什么会出现?MapReduce无非就是一套计算模型,但是使用Hadoop的API来实现这种...
2019-06-19 08:20:55
692
原创 [spark] Standalone模式下Driver资源调度及Executor分配流程
注:本文接上一篇文章【[spark] standalone集群模式Driver启动过程 】继续说明Driver在启动之后,如何申请资源的一个流程......目录思路:步骤:总结:思路:在Standalone模式下集群启动时,Worker会向Master注册,使得Master可以感知进而管理整个集群;Master通过借助Zookeeper,可以简单实现高可用性;而应用...
2019-06-18 18:59:18
1255
原创 [spark] standalone集群模式Driver启动过程
本篇文章简单整理一下spark在standalone集训模式下启动Driver的流程,本篇文章只解析到Driver启动成功,启动后续任务执行在后面博客更新,个人比较喜欢从代码跟踪,文章代码粘贴只提取部分重要代码。。。。。。一、脚本查看spark-submit触发任务的提交,查看spark-submit脚本会看出最终执行任务的主类是:exec "${SPARK_HOME}"/...
2019-06-17 20:55:26
986
原创 [spark] Standalone模式下worker启动流程
注:spark版本2.1.1,启动模式:Standalone ,需要启动Master和Worker守护进程一、脚本分析start-all.sh中会直接启动start-slaves.shstart-slaves.sh中会调用org.apache.spark.deploy.master.Worker二、源码解析org.apache.spark.deploy.mas...
2019-06-17 16:27:28
846
原创 [spark] Standalone模式下Master启动流程
注:spark版本2.1.1,启动模式:Standalone ,需要启动Master和Worker守护进程一、脚本分析start-all.sh中会直接启动start-master.shstart-master.sh二、源码解析org.apache.spark.deploy.master.Master1、Master主类进入main方法,main方法主要是创建RP...
2019-06-17 15:18:52
782
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅