
Spark
文章平均质量分 87
spark专栏,知识分享
Nelson_hehe
人生的奔跑不在于瞬间的爆发,而在于途中的坚持。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark学习之路——9.Spark ML
一、简介基于RDD的API spark.mllib已进入维护模式。Spark ML是Spark MLlib的一种新的API,它有下面的优点:1.面向DataFrame,基于RDD进一步封装,拥有功能更多的API2.具有Pipeline功能,可以实现复杂的机器学习模型3.性能得到提升二、ML Pipeline一个pipeline 在结构上会包含一个或多个Stage,每一个...原创 2020-02-03 16:29:06 · 8030 阅读 · 1 评论 -
Spark学习之路——8.Spark MLlib
MLlib的官网文档:http://spark.apache.org/docs/latest/ml-guide.html本节主要内容:一、MLlib简述二、基本数据类型三、汇总统计四、实例应用K-means算法一、MLlib简述:1.MLlib是什么?MLlib是Spark的机器学习(ML)库。它的目标是让实用的机器学习变得可扩展和容易。在高层次上,它提供以下工...原创 2020-02-02 12:27:01 · 1254 阅读 · 0 评论 -
Spark学习之路——7.Spark SQL
一、Spark SQL简介1.背景(1)HiveQL是将SQL语句转化为了MapReduce作业来执行,当使用Spark来代替MapReduce计算时,就变成了Hiveon Spark(Shark),实现了将HiveQL翻译成Spark上的RDD操作。(2)Shark一方面提高了SQLon Hadoop的性能,但是也导致了两个问题:①执行计划完全依赖于Hive;②Spark是线程级...原创 2020-02-01 17:13:31 · 346 阅读 · 0 评论 -
Spark学习之路——6.RDD算子
本文主要是记录一些常用的Transformation算子和Action算子一、Transformation变换算子1.Value数据类型这种变换并不触发提交作业,针对处理的数据项是Value 型的数据。(1)输入分区和输出分区一对一map、flatMap、glom、MapPartitions算子(2)输入分区和输出分区多对一union算子、Cartesian算子...原创 2020-01-31 17:52:56 · 260 阅读 · 0 评论 -
Spark学习之路——5.Spark UI
一、Spark UI解读Jobs页面可以看到所有Jobs的执行情况,job的数量取决于action算子的数量。Stages页面列出所有Stage的执行情况。Spark stage切分是按照宽依赖来区分的,因此粒度上要比job更细一些。Storage页面显示所做的cache persist等操作。Environment页面里面展示了当前spark所依赖的环境,比如jdk,lib等等...原创 2020-01-31 14:55:59 · 447 阅读 · 0 评论 -
Spark学习之路——4.Spark RDD详解
Spark RDD详解在Spark学习之路——2.核心组件、概念中我们已经对RDD进行了比较细致的介绍,但是对RDD在Saprk内部起到的作用、还有RDD和其他组件之间的关系没有明确描述,下面我们就以编程的视角,详细地了解一下RDD的设计和运行原理。一、总述RDD是Spark的数据抽象,一个RDD是一个只读的分布式数据集,可以通过转换操作在转换过程中对RDD进行各种变换。一个复杂的...原创 2019-12-11 14:56:54 · 769 阅读 · 0 评论 -
Spark学习之路——3.Spark应用运行流程和运行模式
第三节、Spark应用运行流程和运行模式一、Spark应用运行流程1.程序的执行流程:当执行一个应用时,Driver会向集群管理器申请资源,启动Executor,并向Executor发送应用 程序代码和文件,然后在Executor上执行任务,运行结束后,执行结果会返回给Driver,或者写到HDFS或者其他数据库中。2.下面是Spark应用程序详细流程:①当一个S...原创 2019-12-10 17:55:43 · 750 阅读 · 1 评论 -
Spark学习之路——2.核心组件、概念
第二节、Spark核心核心组件、概念一、RDD1.RDD(Resilient Distributed Datesets)弹性分布式数据集①RDD是Spark中计算和数据的抽象,它标识已经分片(partition),不可变的并能够被并行计算的数据集合。②RDD可以被存储在内存中也可以存储在磁盘里③RDD提供了两种类型的变化操作:Transformation和Action④RD...原创 2019-12-09 00:25:06 · 319 阅读 · 0 评论 -
Spark学习之路——1.初识Spark
第一节、初识Spark一、Spark简介1.Spark官网: http://spark.apache.org/ 官方介绍为:Apache Spark™ is a unified analytics engine for large-scale data processing.2.对Spark的总结 Spark是Apache的开源项目(一种灵活的框架),专为大规模数据...原创 2019-12-08 20:43:25 · 294 阅读 · 0 评论