
Spark
文章平均质量分 74
夏末的初雪
知乎id: 迷路森林
展开
-
Spark系列(四)RDD编程
Spark大数据处理的核心是RDD,RDD的全称为弹性分布式数据集,对数据的操作主要涉及RDD的创建、转换以及行动等操作,在Spark系列(二)中主要介绍了RDD根据SparkContext的textFile创建RDD的方法,本小节将介绍RDD编程之转换(Transform)和行动(Action)两种操作。RDD是分布式数据集的抽象RDD是不可变的数据集合,每个RDD都被分成多个分区,这些分区运行...原创 2018-03-17 21:46:31 · 447 阅读 · 0 评论 -
Spark系列(三)Spark的工作机制
什么时候才能回归到看论文,写感想的日子呀~刚刚交完房租的我血槽已空。看了师妹关于Spark报告的PPT,好怀念学生时代开组会的时光啊,虽然我已经离开学校不长不短两个月,但我还是非常认真的翻阅了,并作为大自然的搬运工来搬运知识了。Spark的执行模式1、Local,本地执行,通过多线程来实现并行计算。2、本地伪集群运行模式,用单机模拟集群,有多个进程。3、Standalone,spark做资源调度,...原创 2018-03-11 22:47:43 · 5438 阅读 · 0 评论 -
Spark系列(二)Spark的数据读入
真的是超级忙碌的一周,所幸的是我们迎来了新的家庭成员一只小猫咪--大王。取名为大王的原因竟然是因为之前作为流浪猫的日子总是被其他猫所欺负,所以希望他能做一只霸气的霸王猫啦。言归正传,在周一见的悲伤中唯有写一篇博客才能缓解我的忧伤吧。Spark读取文本文件--textFile()def textFile( path: String, minPartitions: Int ...原创 2018-03-11 21:10:59 · 4752 阅读 · 2 评论 -
Spark系列(一) 认识Spark
怀念看论文的日子~/打算写一个Spark系列,主要以Scala代码实现,请赐予我力量吧!!!Spark的特点运行速度:Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明,如果数据由磁盘读取,速度是Hadoop MapReduce的10倍以上,如果数据从内存中读取,速度可以高达100多倍。适用性强:能够读取HDFS、Cassandra、HBase、S3和Techyon为...原创 2018-03-04 18:07:56 · 812 阅读 · 0 评论 -
Spark系列(五)共享变量累加器
累加器(accumulator)累加器是共享变量的一种,它提供了信息聚合的一种方法,提供了将工作节点中的值聚合到驱动器程序中的简单语法,累加器常常被作为Rdd的map,filter操作的副产品,这仍然是由于行动操作之前的转化操作仍然是惰性的,只有进行了行动操作之后,才会触发累加器的求值操作。spark快速大数据分析只有在执行了saveAsTextFile之后,累加器blankLines才能保存正确...原创 2018-03-23 21:30:34 · 1275 阅读 · 0 评论 -
Spark 的作业执行原理
参见书籍 《图解Spark:核心技术与案例实战》要点概述** 作业(Job)提交后由行动操作触发作业执行,根据RDD的依赖关系构建DAG图,由DAGSheduler(面向阶段的任务调度器)解析** DAGSheduler在解析DAG图时是以RDD的依赖是否为宽依赖,当遇到宽依赖就划分为一个新的调度阶段。每个调度阶段都包含一个或者是多个任务(Task),多个Task组成任务集,提交给TaskShed...原创 2018-07-07 22:43:38 · 730 阅读 · 0 评论 -
YARN的两种运行模式
YARN是一种资源管理机制,可以基于这种资源管理机制运行多种计算框架,比如mapreduce和storm,任何框架与YARN的结合,都必须遵循YARN的开发模式,下图为YARN框架的基本原理。其中,ResourceManager和NodeManagers是整个计算框架的核心部分,ResourceManager负责资源的分配,将集群的资源分配给各个应用使用,而资源分配和调度的基本单位是Con...原创 2018-10-02 19:58:55 · 4325 阅读 · 0 评论 -
RDD分区理解
RDD分区的作用一个HDFS文件的RDD将文件的每个文件块表示为一个分区,并且知道每个文件块的位置信息。这些对应着数据块的分区分布到集群的节点中,因此,分区的多少涉及对这个RDD进行并行计算的粒度。首先,分区是一个逻辑概念, 变换前后的新旧分区在物理上可能是同一块内存或者是存储。需要注意的是,如果没有指定分区数将使用默认值,而默认值是该程序所分配到CPU核数,如果是从HDFS文件创建,默认...原创 2018-10-05 21:39:16 · 8759 阅读 · 0 评论