蛮子72-优快云博客

转载 Spark开发性能调优

Spark开发性能调优标签（空格分隔）： Spark–Write By Vin1. 分配资源调优Spark性能调优的王道就是分配资源,即增加和分配更多的资源对性能速度的提升是显而易见的,基本上,在一定范围之内,增加资源与性能的提升是成正比的,当公司资源有限,能分配的资源达到顶峰之后,那么才去考虑做其他的调优如何分配及分配哪些资源在生产环境中,提交spark作业时,使用spark...

2019-08-04 16:57:38 288

转载 JVM 优化实战

本文转载自：https://kefeng.wang/2016/11/22/java-jvm/目录1 GC相关内存1.1 内存划分1.2 JVM内存分配策略2 JVM优化原则2.1 优化目标2.2 优化方法3 服务端开启 JMX/jstatd3.1 设置系统环境变量3.2 开启 JMX（指定端口 1090）3.3 开启 jstatd agent(默认端口 ...

2019-06-26 08:26:35 593

转载 kafka读写速度快的原因

KAFKA是分布式发布-订阅消息系统，是一个分布式的，可划分的，冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。现在被广泛地应用于构建实时数据管道和流应用的场景中，具有横向扩展，容错，快等优点，并已经运行在众多大中型公司的生产环境中，成功应用于大数据领域，本文分享一下我所了解的KAFKA。【KAFKA高吞吐率性能揭秘】KAFKA的第一个突出特定就是“快”，而且是那...

2019-06-25 19:08:07 1112

本文转载自：https://blog.youkuaiyun.com/hguisu/article/details/7408047硬盘的种类主要是SCSI 、IDE 、以及现在流行的SATA等；任何一种硬盘的生产都要一定的标准；随着相应的标准的升级，硬盘生产技术也在升级；比如 SCSI标准已经经历了SCSI-1 、SCSI-2、SCSI-3；其中目前咱们经常在服务器网站看到的 Ultral-160就是基于S...

2019-06-25 18:12:43 247

转载机械硬盘的存储结构及原理

本文转载自:https://blog.youkuaiyun.com/u013125075/article/details/86576640硬盘是电脑主要的存储媒介之一。根据硬盘的读写方式和存储方式不同，当前主流的硬盘可以分为固态硬盘（SSD硬盘）、机械硬盘（HDD 硬盘）两种。由于固态硬盘存在价格昂贵、容量较小和一旦损坏难以修复等特点，当前市场主要流行的依然是机械硬盘。当然，在高端计算机中通常会结合...

2019-06-25 13:06:58 12681 1

转载 Spark重点之shuffle全过程

本文原文地址：https://www.cnblogs.com/itboys/p/9201750.html什么时候需要 shuffle writer假如我们有个 spark job 依赖关系如下我们抽象出来其中的rdd和依赖关系:E <-------n------, C <--n---D---n-----F--s---, ...

2019-06-24 12:34:50 189

转载 Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势

本文转发自技术世界，原文链接　http://www.jasongj.com/spark/skew/目录摘要为何要处理数据倾斜（Data Skew）什么是数据倾斜数据倾斜的危害数据倾斜是如何造成的如何缓解/消除数据倾斜避免数据源的数据倾斜 ———— 读Kafka避免数据源的数据倾斜 ———— 读文件原理案例总结调整并行度分散同一个Task的不同Ke...

2019-06-23 17:50:56 273

原创 [spark] SparkSQL知识点全集整理

SparkSQL是一个用于处理结构化数据的spark组件，主要强调的是“结构化”，让开发者少写代码、降低开发成本、提升数据分析执行效率、shark是SparkSQl的前身。目录简介DataFrame对比RDD：DataFrame常见创建方式：SparkSQL读写数据1、与RDD交互2、读写本地文件3、读写parquet4、读写json5、读写mysql...

2019-06-20 09:08:38 875

原创 HIVE语法基础及实战----干货

目录基础了解Hive使用场景？安装Hive内部介绍启动hive：基础操作Hiverc文件数据类型和文件格式数据定义表操作修改表数据导出Hql查询Join优化模式设计调优开发Hive权限管理Hive运行原理基础了解hive为什么会出现？MapReduce无非就是一套计算模型，但是使用Hadoop的API来实现这种...

2019-06-19 08:20:55 692

原创 [spark] Standalone模式下Driver资源调度及Executor分配流程

注：本文接上一篇文章【[spark] standalone集群模式Driver启动过程】继续说明Driver在启动之后，如何申请资源的一个流程......目录思路：步骤：总结：思路：在Standalone模式下集群启动时，Worker会向Master注册，使得Master可以感知进而管理整个集群；Master通过借助Zookeeper，可以简单实现高可用性；而应用...

2019-06-18 18:59:18 1255

原创 [spark] standalone集群模式Driver启动过程

本篇文章简单整理一下spark在standalone集训模式下启动Driver的流程，本篇文章只解析到Driver启动成功，启动后续任务执行在后面博客更新，个人比较喜欢从代码跟踪，文章代码粘贴只提取部分重要代码。。。。。。一、脚本查看spark-submit触发任务的提交，查看spark-submit脚本会看出最终执行任务的主类是：exec "${SPARK_HOME}"/...

2019-06-17 20:55:26 986

原创 [spark] Standalone模式下worker启动流程

注：spark版本2.1.1，启动模式：Standalone ，需要启动Master和Worker守护进程一、脚本分析start-all.sh中会直接启动start-slaves.shstart-slaves.sh中会调用org.apache.spark.deploy.master.Worker二、源码解析org.apache.spark.deploy.mas...

2019-06-17 16:27:28 846

原创 [spark] Standalone模式下Master启动流程

注：spark版本2.1.1，启动模式：Standalone ，需要启动Master和Worker守护进程一、脚本分析start-all.sh中会直接启动start-master.shstart-master.sh二、源码解析org.apache.spark.deploy.master.Master1、Master主类进入main方法，main方法主要是创建RP...

2019-06-17 15:18:52 782

u012989317的博客