
Spark
文章平均质量分 81
学习Spark,运用Spark
苏先生_404
这个作者很懒,什么都没留下…
展开
-
spark2.4 整合 hadoop2.6.0-cdh5.7.0 源码编译
[hadoop@hadoop000 softwore]$ wget https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0.tgz^C[hadoop@hadoop000 softwore]$ tar -zxvf spark-2.4.0.tgz -C ~/app/#VERSION=$("$MVN" help:evaluate...原创 2018-12-11 23:49:52 · 928 阅读 · 0 评论 -
RDD的5大特性
RDD5大特点 * Internally, each RDD is characterized by five main properties: * * - A list of partitions * - A function for computing each split * - A list of dependencies on other RDDs * - Optio...原创 2018-11-17 11:40:20 · 387 阅读 · 0 评论 -
spark-shell && spark-submit
在spark bin目录下有 spark-shell和spark-submit 两个脚本,通过 --help 看出来,基本参数都是一样的,那么这两个脚本有什么联系呢?我们运行spark-shell 的时候,我们在web ui 界面中 可以看出来 应用程序名为 Spark shell ,带着诸多疑惑,我们来看下 spark-shell和spark-submit 两个脚本的具体内容spark-sh...原创 2018-12-20 18:08:20 · 825 阅读 · 0 评论 -
RDD 5大特性 在源码中的体现
/** * :: DeveloperApi :: * Implemented by subclasses to compute a given partition. */def compute(split: Partition, context: TaskContext): Iterator[T]对应 RDD特点二** * Implemented by sub...原创 2018-11-17 11:51:14 · 202 阅读 · 0 评论 -
SparkConf && SparkContext详解
官方介绍首先我从官网介绍中知道,我们在创建spark应用程序之前 需要先创建 SparkContext对象, SparkContext,会告知 spark 如何去访问集群,要创建SparkContext您首先需要构建一个包含有关应用程序信息的SparkConf对象。The first thing a Spark program must do is to create a SparkCont...原创 2018-12-17 11:46:48 · 1972 阅读 · 0 评论 -
SparkRDD Operations(一)
1.RDD操作RDD 算子中,有两大分类 Transformations 和 Actions,对于RDD而言,它支持者两种类型的操作;1.1 Transformations:从现有的数据库中 经过装换操作之后形成新的RDD,常见的的 Transformations 算子有 map,filter,mapPartitions,groupByKey…Transformations 这类算子,...原创 2018-12-20 14:30:35 · 245 阅读 · 0 评论 -
SparkRDD简单理解
透过现象看本质,查看下本质的源码信息spark源码地址:https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/rdd/RDD.scala从概念看RDD特性源码注解 部分截图A Resilient Distributed Dataset (RDD)从代码的注解可以看到,RDD就...原创 2018-11-17 11:22:33 · 309 阅读 · 0 评论 -
SparkRDD Operations(二) coalesce && repartition
1.概念理解首先我们看下 官方对这两个算子的介绍coalesce(numPartitions)Decrease the number of partitions in the RDD to numPartitions. Useful for running operations more efficiently after filtering down a large dataset...原创 2018-12-20 15:39:58 · 211 阅读 · 0 评论 -
Spark核心概述术语
Application :一个spark应用程序 由 1 个driver program + n 个 executors 组成User program built on Spark. Consists of a driver program and executors on the cluster.Driver programDriver 程序,主要用来运行 spark应用程序中的ma...原创 2018-12-20 17:29:01 · 178 阅读 · 0 评论