Spark
文章平均质量分 87
spark专栏,知识分享
Nelson_hehe
人生的奔跑不在于瞬间的爆发,而在于途中的坚持。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark学习之路——9.Spark ML
一、简介 基于RDD的API spark.mllib已进入维护模式。 Spark ML是Spark MLlib的一种新的API,它有下面的优点: 1.面向DataFrame,基于RDD进一步封装,拥有功能更多的API 2.具有Pipeline功能,可以实现复杂的机器学习模型 3.性能得到提升 二、ML Pipeline 一个pipeline 在结构上会包含一个或多个Stage,每一个...原创 2020-02-03 16:29:06 · 8130 阅读 · 1 评论 -
Spark学习之路——8.Spark MLlib
MLlib的官网文档: http://spark.apache.org/docs/latest/ml-guide.html 本节主要内容: 一、MLlib简述 二、基本数据类型 三、汇总统计 四、实例应用K-means算法 一、MLlib简述: 1.MLlib是什么? MLlib是Spark的机器学习(ML)库。它的目标是让实用的机器学习变得可扩展和容易。在高层次上,它提供以下工...原创 2020-02-02 12:27:01 · 1305 阅读 · 0 评论 -
Spark学习之路——7.Spark SQL
一、Spark SQL简介 1.背景 (1)HiveQL是将SQL语句转化为了MapReduce作业来执行,当使用Spark来代替MapReduce计算时,就变成了Hiveon Spark(Shark),实现了将HiveQL翻译成Spark上的RDD操作。 (2)Shark一方面提高了SQLon Hadoop的性能,但是也导致了两个问题:①执行计划完全依赖于Hive;②Spark是线程级...原创 2020-02-01 17:13:31 · 374 阅读 · 0 评论 -
Spark学习之路——6.RDD算子
本文主要是记录一些常用的Transformation算子和Action算子 一、Transformation变换算子 1.Value数据类型 这种变换并不触发提交作业,针对处理的数据项是Value 型的数据。 (1)输入分区和输出分区一对一 map、flatMap、glom、MapPartitions算子 (2)输入分区和输出分区多对一 union算子、Cartesian算子 ...原创 2020-01-31 17:52:56 · 276 阅读 · 0 评论 -
Spark学习之路——5.Spark UI
一、Spark UI解读 Jobs页面可以看到所有Jobs的执行情况,job的数量取决于action算子的数量。 Stages页面列出所有Stage的执行情况。Spark stage切分是按照宽依赖来区分的,因此粒度上要比job更细一些。 Storage页面显示所做的cache persist等操作。 Environment页面里面展示了当前spark所依赖的环境,比如jdk,lib等等 ...原创 2020-01-31 14:55:59 · 498 阅读 · 0 评论 -
Spark学习之路——4.Spark RDD详解
Spark RDD详解 在Spark学习之路——2.核心组件、概念中我们已经对RDD进行了比较细致的介绍,但是对RDD在Saprk内部起到的作用、还有RDD和其他组件之间的关系没有明确描述,下面我们就以编程的视角,详细地了解一下RDD的设计和运行原理。 一、总述 RDD是Spark的数据抽象,一个RDD是一个只读的分布式数据集,可以通过转换操作在转换过程中对RDD进行各种变换。 一个复杂的...原创 2019-12-11 14:56:54 · 806 阅读 · 0 评论 -
Spark学习之路——3.Spark应用运行流程和运行模式
第三节、Spark应用运行流程和运行模式 一、Spark应用运行流程 1.程序的执行流程: 当执行一个应用时,Driver会向集群管理器申请资源,启动Executor,并向Executor发送应用 程序代码和文件,然后在Executor上执行任务,运行结束后,执行结果会返回给Driver,或者写到HDFS或者其他数据库中。 2.下面是Spark应用程序详细流程: ①当一个S...原创 2019-12-10 17:55:43 · 814 阅读 · 1 评论 -
Spark学习之路——2.核心组件、概念
第二节、Spark核心核心组件、概念 一、RDD 1.RDD(Resilient Distributed Datesets)弹性分布式数据集 ①RDD是Spark中计算和数据的抽象,它标识已经分片(partition),不可变的并能够被并行计算的数据集合。 ②RDD可以被存储在内存中也可以存储在磁盘里 ③RDD提供了两种类型的变化操作:Transformation和Action ④RD...原创 2019-12-09 00:25:06 · 354 阅读 · 0 评论 -
Spark学习之路——1.初识Spark
第一节、初识Spark 一、Spark简介 1.Spark官网: http://spark.apache.org/ 官方介绍为:Apache Spark™ is a unified analytics engine for large-scale data processing. 2.对Spark的总结 Spark是Apache的开源项目(一种灵活的框架),专为大规模数据...原创 2019-12-08 20:43:25 · 316 阅读 · 0 评论
分享