Spark
文章平均质量分 73
feige1990
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark Web的一些小知识
安装Spark后进的第一个网址,看你是否安装成功,查看sprak中worker的状态 http://sparkmaster:8080/ 查看spark-shell状态 http://sparkmaster:4040/stages/ 查看dfs(datanode)的状态 http://sparkmaster:50070 查看nodes的状态原创 2015-08-07 18:50:10 · 740 阅读 · 0 评论 -
Spark问题笔记5
对于文本文件,在Spark中,一行就是一条记录,若干条记录组成一个集合。我们 原来的算法直接在每一行上进行计算,就不行了。需要先构建数据集,然后通过数据集的操作, 实现我们的目的。 将数据载入并构造数据集 在Spark中,这个数据集被称为`RDD` :弹性分布数据集。对数据集进行map操作 将原始记录映射为新的记录,并返回一个新的RDD。 对map后的数据集进行collect原创 2015-10-05 22:03:21 · 510 阅读 · 0 评论 -
GraphX的基本介绍
1、GraphX的需要懂的三个问题: (1)提供给用户的API,各家提供的差不多 (2)图在分布式系统中如何存储?每个机器存哪个边?哪个点? (3)分布式图是如何通信的呢?(边点确定时) 2、GraphX图引擎 基于Spark,其存的点和边叫分别较做EdgeRDD和VertexRDD,相比于RDD,附加了元信息。 分布式的存储方式会影响后期的执行效率;边和点的存原创 2015-09-04 23:40:56 · 3931 阅读 · 0 评论 -
Spark Shuffle 的调研
转正自:http://dongxicheng.org/framework-on-yarn/apache-spark-shuffle-details/ 概述: 对于大数据计算框架而言,Shuffle是分布式系统性能的瓶颈之一,Shuffle阶段的设计优劣是决定性能好坏的关键因素之一。本文将介绍目前Spark的shuffle实现,并将之与MapReduce进行简单对比。本文的介绍顺序是: (1)原创 2015-09-02 14:43:03 · 475 阅读 · 0 评论 -
Spark学习链接
Spark学习过程中肯定能用到的网站!原创 2015-09-03 19:05:01 · 444 阅读 · 0 评论 -
Spark问题笔记4
对RDD的操作,体现在对算子的操作 算子分两类:Transformation、Action 运行调度: ->DAG->Stage->Task DAGSchedule遇到Action时会回溯,当遇到shuffle时会产生新的Stage,从而产生Stage; 使用TaskSchedule对Stage1进行调度,把stage1 task任务委派到Worker上。原创 2015-09-02 14:17:50 · 477 阅读 · 0 评论 -
spark源码剖析之----Shuffle
1.源码结构 上图是Shuffle的源码组成。 2.ShuffleRDD的类 可见其继承了RDD类,其中主要是重写了RDD的getDependencies、partitioner、getPartitions、compute和clearDependencies方法。 其中compute方法如下: 先Look下Spark Shuffle的整体流程哈,这是在老版本的Spar原创 2015-09-04 02:09:52 · 659 阅读 · 0 评论 -
spark源码剖析之----Partitioner
每个RDD里面都有一个可选的分区策略方法,在Spark源码中关于Partitioner提供了Partitioner的抽象类, /** * An object that defines how the elements in a key-value pair RDD are partitioned by key. * Maps each key to a partition ID, from原创 2015-09-03 16:57:42 · 583 阅读 · 1 评论 -
Spark编程使用的基本指令
// * hadoop fs -mkdir input // * hadoop fs -copyFromLocal /user/local/hadoop/*.txt input // * hadoop jar *.jar className input output // * hadoop namenode -format // * // * spark // * hadoop原创 2015-09-03 00:01:22 · 958 阅读 · 0 评论 -
RDD.scala源码
* A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable, * partitioned collection of elements that can be operated on in parallel. * RDD.scala:This c原创 2015-09-01 12:05:15 · 597 阅读 · 0 评论 -
讨论Spark的配置监控和性能优化
讨论Spark的配置监控和性能优化(某课程笔记) 上完这节课以后,你将能够描述集群的概念 通过修改Spark的属性,环境变量,或者是日志属性来配置Spark 使用Web端界面,以及各种不同的外部工具来监控Spark和应用程序 在Spark集群中有三种主要的组成部分。驱动程序,是放置主程序中SparkContext的地方,要运行一个集群,你需要一个集群管理器 它可以是单机原创 2015-08-01 17:06:40 · 904 阅读 · 0 评论 -
Spark问题笔记3
1、RDD的缓存策略是什么? 缓存策略对应类StorageLevel,包括多种存储级别: object StorageLevel { val NONE = new StorageLevel(false, false, false, false) val DISK_ONLY = new StorageLevel(true, fa原创 2015-08-26 22:24:14 · 710 阅读 · 0 评论 -
Spark问题笔记2
1、学习Spark必须要深入理解RDD编程模型。为什么呢? RDD是Spark抽象的基石,整个Spark的编程都是基于对RDD的操作完成的。RDD(弹性分布式数据集,Resilient Distributed Datasets),其特性是只读的、可分区、容错的的数据集合;所谓弹性,指内存不够时,可以与磁盘进行交换(Spark是基于内存的),上述是Spark快的一个原因。Spark快的另原创 2015-08-26 16:36:03 · 742 阅读 · 0 评论 -
Spark问题笔记1
Spark问题笔记1 我们知道Spark总是以集群的方式运行的,Standalone的部署方式是集群方式中最为精简的一种(另外的是Mesos和Yarn)。Standalone模式中,资源调度是自己实现的,是MS架构的集群模式,故存在单点故障问题。 下面提出几个问题并解决: 1、Standalone部署方式下包含哪些节点? 由不同级别的三个节点组成,分别是Master主控节点、Wor原创 2015-08-26 14:12:42 · 795 阅读 · 1 评论 -
Spark安装
经过了小一天的时间终于把Spark安装好了 我的机器配置是windows7,8G,内存,双核的 安装的软件列表为: Ubuntu 14.04.1 LTS (GNU/Linux 3.13.0-32-generic x86_64) vmware Hadoop: 2.6.0 Spark: 1.4.0 jdk-7u75-linux-x64.gz scala-2.10.4(注意版原创 2015-08-07 16:29:37 · 668 阅读 · 1 评论 -
Spark Streaming 的 UpdateStateByKey操作
updateStateByKey利用给定的函数更新DStream的状态,返回一个新"state"的DStream。操作允许不断用新信息更新它的同时保持任意状态。 你需要通过两步来使用它 定义状态 状态可以是任何的数据类型定义状态更新函数 怎样利用更新前的状态和从输入流里面获取的新值更新状态 举个例子说明。若想保持一个文本数据流中每个单词的运行次数,运行次数用一个state表原创 2015-09-21 22:11:25 · 1599 阅读 · 0 评论
分享