
spark
文章平均质量分 97
郭俊JasonGuo
这个作者很懒,什么都没留下…
展开
-
Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势
本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等。原创 2017-03-06 06:45:02 · 2932 阅读 · 1 评论 -
Spark SQL / Catalyst 内部原理 与 RBO
原创文章,转载请务必将下面这段话置于文章开头处。 本文转发自技术世界,原文链接 http://www.jasongj.com/spark/rbo/ 本文所述内容均基于 2018年9月10日 Spark 最新 Release 2.3.1 版本。后续将持续更新Spark SQL 架构Spark SQL 的整体架构如下图所示 从上图可见,无论是直接使用 SQL 语句...原创 2018-09-11 07:43:29 · 644 阅读 · 0 评论 -
Spark CommitCoordinator 保证数据一致性
原创文章,转载请务必将下面这段话置于文章开头处。本文转发自技术世界,原文链接 http://www.jasongj.com/spark/committer/本文所述内容均基于 2018年9月17日 Spark 最新 Release 2.3.1 版本,以及 hadoop-2.6.0-cdh-5.4.4概述Spark 输出数据到 HDFS 时,需要解决如下问题:由于多个 Task ...原创 2018-09-26 07:34:34 · 816 阅读 · 0 评论 -
Spark SQL 性能优化再进一步 CBO 基于代价的优化
本文所述内容均基于 2018年9月17日 Spark 最新 Release 2.3.1 版本。后续将持续更新Spark CBO 背景上文Spark SQL 内部原理中介绍的 Optimizer 属于 RBO,实现简单有效。它属于 LogicalPlan 的优化,所有优化均基于 LogicalPlan 本身的特点,未考虑数据本身的特点,也未考虑算子本身的代价。本文将介绍 CBO,它充分考虑...原创 2018-09-26 07:38:43 · 2731 阅读 · 3 评论 -
Spark 灰度发布在十万级节点上的成功实践 CI CD
Spark 灰度发布在十万级节点上的成功实践 CI CDSpark CI 持续集成实践CI 介绍Spark CI 实践Spark CD 持续交付CD 持续交付介绍Spark CD 持续发布实践方案一:单分支正常流程bug fixhot fixPros.Cons.方案二:两分支正常流程bug fixhot fixPros.Cons.方案三:多分支正常流程bug fixhot fix灰度发布回滚机制P...原创 2018-10-31 08:08:28 · 911 阅读 · 0 评论