
Spark
文章平均质量分 81
苏先生_404
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SparkRDD简单理解
透过现象看本质,查看下本质的源码信息 spark源码地址: https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/rdd/RDD.scala 从概念看RDD特性 源码注解 部分截图 A Resilient Distributed Dataset (RDD) 从代码的注解可以看到,RDD就...原创 2018-11-17 11:22:33 · 318 阅读 · 0 评论 -
spark2.4 整合 hadoop2.6.0-cdh5.7.0 源码编译
[hadoop@hadoop000 softwore]$ wget https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0.tgz^C [hadoop@hadoop000 softwore]$ tar -zxvf spark-2.4.0.tgz -C ~/app/ #VERSION=$("$MVN" help:evaluate...原创 2018-12-11 23:49:52 · 939 阅读 · 0 评论 -
SparkConf && SparkContext详解
官方介绍 首先我从官网介绍中知道,我们在创建spark应用程序之前 需要先创建 SparkContext对象, SparkContext,会告知 spark 如何去访问集群,要创建SparkContext您首先需要构建一个包含有关应用程序信息的SparkConf对象。 The first thing a Spark program must do is to create a SparkCont...原创 2018-12-17 11:46:48 · 1992 阅读 · 0 评论 -
spark-shell && spark-submit
在spark bin目录下有 spark-shell和spark-submit 两个脚本,通过 --help 看出来,基本参数都是一样的,那么这两个脚本有什么联系呢? 我们运行spark-shell 的时候,我们在web ui 界面中 可以看出来 应用程序名为 Spark shell ,带着诸多疑惑,我们来看下 spark-shell和spark-submit 两个脚本的具体内容 spark-sh...原创 2018-12-20 18:08:20 · 841 阅读 · 0 评论 -
Spark核心概述术语
Application : 一个spark应用程序 由 1 个driver program + n 个 executors 组成 User program built on Spark. Consists of a driver program and executors on the cluster. Driver program Driver 程序,主要用来运行 spark应用程序中的ma...原创 2018-12-20 17:29:01 · 188 阅读 · 0 评论 -
SparkRDD Operations(二) coalesce && repartition
1.概念理解 首先我们看下 官方对这两个算子的介绍 coalesce(numPartitions) Decrease the number of partitions in the RDD to numPartitions. Useful for running operations more efficiently after filtering down a large dataset...原创 2018-12-20 15:39:58 · 218 阅读 · 0 评论 -
SparkRDD Operations(一)
1.RDD操作 RDD 算子中,有两大分类 Transformations 和 Actions,对于RDD而言,它支持者两种类型的操作; 1.1 Transformations: 从现有的数据库中 经过装换操作之后形成新的RDD,常见的的 Transformations 算子有 map,filter,mapPartitions,groupByKey… Transformations 这类算子,...原创 2018-12-20 14:30:35 · 258 阅读 · 0 评论 -
RDD 5大特性 在源码中的体现
/** * :: DeveloperApi :: * Implemented by subclasses to compute a given partition. */ def compute(split: Partition, context: TaskContext): Iterator[T] 对应 RDD特点二 ** * Implemented by sub...原创 2018-11-17 11:51:14 · 206 阅读 · 0 评论 -
RDD的5大特性
RDD5大特点 * Internally, each RDD is characterized by five main properties: * * - A list of partitions * - A function for computing each split * - A list of dependencies on other RDDs * - Optio...原创 2018-11-17 11:40:20 · 397 阅读 · 0 评论 -
消除spark on yarn的两处警告
1.导读 从spark官网中我们可看到spark running-on-yarn 上的话只需要将master指定为yarn即可, 但是在on yarn的时候,有可能会报出如下两处警告 警告一: 18/12/25 00:34:51 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... us...原创 2018-12-25 23:06:28 · 574 阅读 · 0 评论