
Spark
Clozzz
在撸码的道路上越走越远
展开
-
大数据基础之SparkStreaming——SparkStreaming整合Flume
Spark Streaming继承Flume Spark Streaming通过Push和Pull两种方式对接Flume数据源。以Spark Streaming的角度来看,Push方式属于推送(由Flume向Spark推送),而Pull属于拉取(Spark拉取Flume的输出)。 不论以何种方式,开发过程类似,都是由 Spark Streaming 对接 Flume 数据流,Flume 做为 Spark Streaming 的数据源。Push 和 Pull 两者的差别主要体现在Flume Sink原创 2020-08-20 19:43:14 · 378 阅读 · 0 评论 -
大数据基础之Spark——Spark pregel详细过程,一看就懂
Pregel概述Pregel是Google提出的用于大规模分布式图计算框架 - 图遍历(BFS) - 单源最短路径(SSSP) - PageRank计算Pregel的计算由一系列迭代组成,称为superstepsPregel迭代过程 - 每个顶点从上一个superstep接收入站消息 - 计算顶点新的属性值 - 在下一个superstep中想相邻的顶点发送消息 - 当没有剩余消息是,迭代结束Pregel原理分析pregel函数源码以及各个参数的简介: def p原创 2020-08-10 10:13:52 · 1112 阅读 · 0 评论 -
大数据基础之SparkGraphX——Spark PageRank算法,包你能看懂
PageRank的概念 PageRank,网页排名, 是一种由根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一, 它由Larry Page 和 Sergey Brin在20世纪90年代后期发明,并以拉里·佩吉(Larry Page)之姓来命名。 PageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。PageRank算法计算每一个网页的PageRank值,然后根据这个值的大小对网页的重要性进行排序。该算法可以用于对网页进行排序,当然,也可以原创 2020-08-09 13:25:50 · 768 阅读 · 0 评论 -
大数据基础之SparkGraphX——SparkGraphX基本简介及寻找网络红人项目实战分析
图(Graph)的基本概念图是有顶点集合(vertex)及顶点之间的关系结合(边egde)组成的一种网状数据结构 - 通常表示为二元祖:Graph=(V,E) - 可以对事物之间的关系建模应用场景 - 在地图应用中寻找最短路径 - 社交网络关系 - 网页间超链接关系顶点(Vertex)边(Edge)//顶点集合V={v1,v2,v3}//边集合E={(v1,v2),(v2,v3),(v1,v3)}Graph=(V,E)度(一个顶点所有边的数量) - 出度原创 2020-08-09 11:58:19 · 940 阅读 · 0 评论 -
大数据基础之Spark——Spark分布式计算原理(Spark Stage原理、Spark Shuffle过程、RDD依赖关系、DAG工作原理、RDD优化、RDD分区设计、数据倾斜问题)
大数据基础项目——WordCount原理:分析:当数据发生Shuffle过程时,会划分成两个Stage一个Stage对应着三个Task一个分区对应着一个Task划分Stage的原因:数据本地化: - 移动计算,而不是移动数据 (移动数据不如移动计算) - 保证一个Stage内不会发生数据移动Spark Shuffle过程解析:在分区之间重新分配数据 - 父RDD中同一分区中的数据按照算子的要求重新进入子RDD的不同分区中 - 中间结果写磁盘 - 由子RDD拉取原创 2020-08-08 17:15:48 · 479 阅读 · 0 评论 -
大数据基础之Spark——Spark DataFrame基本操作
Spark创建DataFrame的三种方法:一、通过读取文件创建DataFrame:def main(args: Array[String]): Unit = { val spark = SparkSession.builder().master("local[1]").appName("mytest").getOrCreate() //header表示存在并使用表头 //加载本地 若为hdfs则改为hdfs://格式 val course = spark.read.forma原创 2020-08-05 22:20:10 · 629 阅读 · 0 评论 -
大数据基础之Spark——Spark基础(Spark优势、Spark技术栈、Spark架构、Spark入口以及RDD相关操作)
Spark的安装教程在我之前的博客里写过,有需要的可以去看看。Spark简介:Spark是一种用来实现分布式计算的框架。使用Spark的原因:相比于MapReduce:处理过程繁杂 - 只有Map和Reduce两个操作,复杂的逻辑需要大量的样板代码处理效率低 - Map中间结果写磁盘,Reduce结果写HDFS,多个Map通过HDFS交换数据 - 任务调度与启动开销大不适合迭代处理、交互式处理和流式处理Spark是类Hadoop MapReduce的通用并行框架Job中间原创 2020-08-05 11:14:51 · 318 阅读 · 0 评论 -
大数据基础之Spark——Spark的安装教程
注意:在安装spark之前一定要确保自己虚拟机已经安装了jdk,如果没有请看我之前的博客。1.spark资源(自取):https://pan.baidu.com/s/1Kn0-UnZ8AMLiHF4l2YGcLQ提取码:ao3w2.将压缩包上传到Linux系统,并进行解压和安装//解压tar -zxf spark-2.3.4-bin-hadoop2.6.tgz//个人习惯将安装的软件放在soft文件夹下,没有就自己新建一个mv spark-2.3.4-bin-hadoop2.6 /opt/s原创 2020-07-23 19:31:50 · 514 阅读 · 0 评论