
spark调优
文章平均质量分 78
牛逸凡
不断探索中。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark 调优——基础篇
开发调优调优概述Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务以及实际的应用场景,灵活地运用到自己的Spark作业中。原则一:避免创建重复的RDD通常来...原创 2018-07-15 20:55:20 · 224 阅读 · 0 评论 -
Spark集群基础概念 与 spark架构原理
一、Spark集群基础概念 将DAG划分为多个stage阶段,遵循以下原则: 1、将尽可能多的窄依赖关系的RDD划为同一个stage阶段。 2、当遇到shuffle操作,就意味着上一个stage阶段结束,下一个stage阶段开始 关于RDD中的分区,在默认情况下(也就是未指明分区数的情况) 1、如果从HDFS中读取数据创建RDD,在默认情...原创 2018-07-17 15:33:14 · 1878 阅读 · 0 评论 -
Spark 介绍
安装在集群上的spark版本:spark-1.6.3-bin-hadoop2.6.tgz scala版本:scala-2.10.4.tgz 1、spark是什么 Spark, 是一种通用的大数据计算框架, 正如传统大数据技术Hadoop的MapReduce、 Hive引擎, 以及Storm流式实时计算引擎等。 Spark包含了大数据领...原创 2018-07-17 15:33:21 · 475 阅读 · 0 评论 -
spark高效的分布式计算架构
目标Scope(解决什么问题) 在大规模的特定数据集上的迭代运算或重复查询检索 官方定义: a MapReduce-like cluster computing framework designed for low-latency interativejobs and interactive use from an interpreter 首先,MapReduce-like是说架构上和多数...原创 2018-07-21 14:54:25 · 8998 阅读 · 0 评论