
Spark
Nick-_-Song
一个想成为大神的程序猿
展开
-
重拾Spark 之day03--Spark的运行原理与角色
简单梳理下Spark的程序的运行原理与Spark各阶段的各个角色。构建Spark Application运行环境;在Driver Program中新建SparkContext(包含SparkContext的程序称为Driver Program);Spark Application 运行的表现方式为:在集群上运行着一组独立的executor进程,这些进程由SparkContext来协调;简单来...原创 2019-03-06 21:08:09 · 242 阅读 · 0 评论 -
重拾Spark 之day01--Spark简介
昨天去参加了场面试,本来觉得自己很厉害,后来觉得自己啥都不会。自己学习能力确实还行,在项目中遇到不会的东西通过粗略的学习马上就能用到项目中来,但是只知道用。所以感觉这次面试把原来飘在天上的我又拉回来了,是时候需要脚踏实地好好学习了。也为今年秋天去大厂的面试做做准备吧。Spark 简介1.Spark简介1.1 简介与功能1.1.1 运行速度快1.1.2 易用性好1.1.3 通用性强1.1.4 随处...原创 2019-03-02 18:15:37 · 275 阅读 · 0 评论 -
重拾Spark 之day02--Spark开发环境搭建
这里就不详细讲解Hadoop集群以及Spark集群怎么搭建。这里是搭建Windows 10系统本地开发环境,可以编写Spark测试案例。Spark开发环境搭建1. Spark开发环境搭建1.1 安装jdk1.2 安装IntelliJ IDEA1.3 安装Scala1.4 安装Python1.5 安装Spark1. Spark开发环境搭建1.1 安装jdk我选择的版本是jdk1.8.0_11...原创 2019-03-03 15:50:09 · 358 阅读 · 0 评论 -
重拾Spark 之day04--Spark RDD
发现一篇对Spark RDD讲的比较通俗易懂的文章。http://sharkdtu.com/posts/spark-rdd.htmlSpark核心概念RDDRDD全称叫做弹性分布式数据集(Resilient Distributed Datasets),它是一种分布式的内存抽象,表示一个只读的记录分区的集合,它只能通过其他RDD转换而创建,为此,RDD支持丰富的转换操作(如map, join, ...转载 2019-03-06 22:05:39 · 228 阅读 · 0 评论 -
重拾Spark 之day05--创建RDD
RDD是什么东西已经初步了解了,现在我们要怎么创建RDD呢?创建RDD1. 从集合创建RDD1.1 parallelize1.2 range1.3 makeRDD1. 从集合创建RDD1.1 parallelize源码: /** Distribute a local Scala collection to form an RDD. * * @note Parallelize...原创 2019-03-14 22:27:58 · 238 阅读 · 0 评论 -
spark源码理解之 withScope
spark源码理解之 withScope在通过看RDD源码理解各算子的作用时, 总能看到withScope, withScope到底是个什么东西?首先需要了解几个东西: scala柯里化(currying), 贷出模式(loan pattern)scala柯里化(currying)在scala中, 一个经过柯里化的函数在应用时支持多个参数列表,而不是只有一个。当第一次调用只传入第一个参数时...原创 2019-04-30 11:27:03 · 3147 阅读 · 3 评论 -
重拾Spark 之day06--Spark 算子详解(一)
上节讲到Spark RDD可以通过各种算子进行操作转换,Spark算子分为Transformation算子和Action算子。其中Transformation算子可以将RDD转换成新的RDD,Action算子将RDD消化,在控制台打印或者持久化到文件系统或数据库。Spark 算子详解(一)...原创 2019-04-30 16:36:10 · 219 阅读 · 0 评论 -
Spark 解决数据倾斜问题
Spark 解决数据倾斜问题一、前述数据倾斜问题是大数据中的头号问题,所以解决数据清洗尤为重要,本文只针对几个常见的应用场景做些分析 。二、具体方法1. 使用 Hive ETL 预处理数据方案适用场景:如果导致数据倾斜的是 Hive 表。如果该 Hive 表中的数据本身很不均匀(比如某个 key 对应了 100 万数据,其他 key 才对应了 10 条数据),而且业务场景需要频繁使用 ...原创 2019-06-12 15:47:36 · 459 阅读 · 0 评论