kgars1-优快云博客

转载 Spark技术内幕：Shuffle Read的整体流程

回忆一下，每个Stage的上边界，要么需要从外部存储读取数据，要么需要读取上一个Stage的输出；而下边界，要么是需要写入本地文件系统（需要Shuffle），以供childStage读取，要么是最后一个Stage，需要输出结果。这里的Stage，在运行时的时候就是可以以pipeline的方式运行的一组Task，除了最后一个Stage对应的是ResultTask，其余的Stage对应的都是Shuff

2016-10-16 22:11:54 426

转载 Spark技术内幕：Storage 模块整体架构

Storage模块负责了Spark计算过程中所有的存储，包括基于Disk的和基于Memory的。用户在实际编程中，面对的是RDD，可以将RDD的数据通过调用org.apache.spark.rdd.RDD#cache将数据持久化；持久化的动作都是由Storage模块完成的。包括Shuffle过程中的数据，也都是由Storage模块管理的。可以说，RDD实现了用户的逻辑，而Storage则管理了用户

2016-10-16 21:57:30 238

转载 Spark技术内幕：Shuffle的性能调优

通过上面的架构和源码实现的分析，不难得出Shuffle是Spark Core比较复杂的模块的结论。它也是非常影响性能的操作之一。因此，在这里整理了会影响Shuffle性能的各项配置。尽管大部分的配置项在前文已经解释过它的含义，由于这些参数的确是非常重要，这里算是做一个详细的总结。1.1.1 spark.shuffle.manager前文也多次提到过，Spark1.2.0官方支持两

2016-10-16 21:51:33 307

转载 Spark常用函数讲解之Action操作

RDD：弹性分布式数据集，是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作，一个RDD代表一个分区里的数据集RDD有两种操作算子： Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作 Atio

2016-10-16 20:36:17 368

转载 Spark常用函数讲解之键值RDD转换

摘要：RDD：弹性分布式数据集，是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作，一个RDD代表一个分区里的数据集RDD有两种操作算子： Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作

2016-10-16 20:35:20 352

转载 Spark函数详解系列之RDD基本转换

摘要： RDD：弹性分布式数据集，是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作，一个RDD代表一个分区里的数据集 RDD有两种操作算子： Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作

2016-10-16 20:34:19 388

转载 Spark的算子的分类

从大方向来说，Spark 算子大致可以分为以下两类: 1）Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。　　　Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算。 2）Action 行动算子：

2016-10-16 20:25:25 1984

转载 Spark中的编程模型

1. Spark中的基本概念在Spark中，有下面的基本概念。Application:基于Spark的用户程序，包含了一个driver program和集群中多个executorDriver Program：运行Application的main()函数并创建SparkContext。通常SparkContext代表driver programExecutor：为某Applica

2016-10-16 17:44:21 293

实施方法论

软件实施方法论，欢迎大家抢险使用ok。

2014-01-22

mahout hadoop

mahout 大数据 hadoop 数据挖掘应用实战，mahout使用指南

2014-06-25

hadoop2.2 hbase0.96.2 hive 0.13.1整合部署

hadoop2.2 hbase0.96.2 hive 0.13.1整合部署本人亲测，用了一个月终于搞定，内容绝对详实。

2014-10-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人