
Spark
文章平均质量分 97
Zhuuu_ZZ
这个作者很懒,什么都没留下…
展开
-
<Zhuuu_ZZ>Spark Streaming
Spark Streaming一 Spark Streaming概述1.离线和实时概念2.批量和流式概念3.Spark Streaming是什么4.Spark Streaming特点5.Spark Streaming架构6.背压机制二 DStream入门1.WordCount案例实操2.WordCount解析3.几点注意一 Spark Streaming概述1.离线和实时概念数据处理的延迟离线计算就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今原创 2020-12-25 08:53:13 · 2790 阅读 · 0 评论 -
<Zhuuu_ZZ>Spark项目实战-航班飞行网图分析
航班飞行网图分析一 项目技能二 项目需求三 数据探索下载数据数据格式四 项目实战构建航班飞行网图统计航班飞行网图中机场与航线的数量计算最长的飞行航线找出最繁忙的机场找出最重要的飞行航线找出最便宜的飞行航线一 项目技能Spark GraphX APIvertices、edges、triplets、numEdges、numVerticesinDegrees、outDegrees、degreesmapVertices、mapEdges、mapTripletsSpark GraphX Page原创 2020-11-29 21:46:22 · 2075 阅读 · 5 评论 -
<Zhuuu_ZZ>Spark GraphX中的三大算法PageRank&ConnectedComponents&Pregel
PageRank&ConnectedComponents&Pregel一 PageRank算法实例实现PageRank算法原理剖析二 ConnectedComponents数据准备图结构实现扩展参考三 Pregelpregel函数源码顶点的激活态和钝化态pregel原理分析pregel代码实现代码分析参考:一 PageRank算法实例实现下面为社交网络关系图,求出最受欢迎的一个人,即直接或间接入度最多的。import org.apache.spark.rdd.RDDimpor原创 2020-11-26 19:46:15 · 1421 阅读 · 1 评论 -
<Zhuuu_ZZ>基于Spark GraphX的图形数据分析
Spark GraphX一 为什么需要图计算二 图(Graph)的基本概念三 图的术语1、顶点和边2、有无向图3、有无环图4、度(degrees)四 图的经典表示法-邻接矩阵五 GraphX API1、通过两RDD创建Graph2、通过文件加载方式创建Graph3、构建用户关系属性图4、构建用户社交网络关系六 图的算子1、属性算子mapVertices&mapEdges&mapTriplets一 为什么需要图计算许多大数据以大规模图或网络的形式呈现许多非图结构的大数据,常会被转为图模原创 2020-11-25 20:03:31 · 616 阅读 · 1 评论 -
<Zhuuu_ZZ>Spark项目之log日志数据分析处理
Spark项目之数据分析处理一 项目准备二 项目需求三 项目战斗1、数据清洗日志字段拆分分析IDEA开发程序2、用户留存分析一 项目准备需要分析处理的数据如下日志数据字段数据字典有需要的点击链接获取链接: 项目资料.提取码:599q二 项目需求使用Spark完成下列日志分析项目需求:日志数据清洗用户留存分析活跃用户分析活跃用户地域信息分析用户浏览深度分析三 项目战斗1、数据清洗读入日志文件并转化为RDD[Row]类型按照Tab切割数据过滤掉字段数量少于原创 2020-11-19 16:39:51 · 1077 阅读 · 3 评论 -
<Zhuuu_ZZ>Spark(六)之SparkSQL&DataFrame&DataSet
Spark SQL及与Hive的集成一 Spark SQL架构二 运行原理之Catalyst优化器1、运行逻辑2、逻辑计划3、优化4、物理计划三 Spark SQL API1、SparkSession2、Dataset3、使用Case Class创建Dataset4、RDD->Dataset5、DataFrame什么是DataFrameDataFrame API常用操作一 Spark SQL架构Spark SQL是Spark的核心组件之一(Spark Core、Spark SQL、Spark S原创 2020-11-18 10:26:31 · 1963 阅读 · 1 评论 -
<Zhuuu_ZZ>Spark之SQL算子50题--DSL编程
Spark之SQL算子50题DSL编程一 创建mysql表之脚本二 IDEA中Spark连接Mysql1、linux虚拟机启动mysql服务2、pom.xml中添加依赖3、编写连接语句三 练习50题(1) 查询\"01\"课程比\"02\"课程成绩高的学生的信息及课程分数(2) 查询\"01\"课程比\"02\"课程成绩低的学生的信息及课程分数(3) 查询平均成绩大于等于60分的同学的学生编号和学生姓名和平均成绩(4) 查询平均成绩小于60分的同学的学生编号和学生姓名和平均成绩:– (包括有成绩的和无成绩的原创 2020-11-17 20:16:55 · 3053 阅读 · 2 评论 -
<Zhuuu_ZZ>Spark(五)虚拟机运行Spark程序Jar包
虚拟机运行Spark程序Jar包一 在IDEA编写Scala程序二 生成Jar包三 执行Jar包一 在IDEA编写Scala程序此处简单的就用WordCount来示例为了程序广泛的适用性,所以文件输入输出路径采用了Properties进行了包装成一个文件,该文件可以放在虚拟机上,以供随时修改里面的路径。需要注意的是,单词来源路径和单词统计结果生成文件路径如果是要在虚拟机上运行,其路径不能是windows本机路径,会识别不出来,最好是虚拟机路径或者hdfs路径。IDEA程序import jav原创 2020-11-12 15:26:53 · 929 阅读 · 0 评论 -
<Zhuuu_ZZ>Spark(四)分布式计算原理
分布式计算原理一 宽依赖和窄依赖1、宽窄依赖含义2、窄依赖的优化有利性3、款窄依赖算子4、WordCount运行中的宽窄依赖二 DAG(有向无环图)工作原理1、有向无环图2、划分Stage3、Shuffle过程4、Shuffle实践三 RDD持久化之cache&persist&checkpoint1、cache和persist一 宽依赖和窄依赖1、宽窄依赖含义Spark中RDD的高效与DAG(有向无环图)有着很大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD原创 2020-11-12 14:42:43 · 1253 阅读 · 0 评论 -
<Zhuuu_ZZ>Spark(三)RDD算子大全
RDD算子大全,你想要的我都有一 ScalaRDDSparkContextfiltermapmapValuereduceByKeygroupByKeysortByKeydistinctunion/++intersectionjoinleftOuterJoinrightOuterJoinfullOuterJoinReducesaveAsTextFile二 JavaRDDJavaSparkContextparallelizetextFilefilter一 ScalaRDDSparkContextobjec原创 2020-11-10 20:14:30 · 415 阅读 · 0 评论 -
<Zhuuu_ZZ>Spark(二)架构分析
Spark它终于来了。。。原创 2020-11-04 15:08:13 · 399 阅读 · 0 评论 -
<Zhuuu_ZZ>Spark(一)老生常谈的环境配置
快乐的装机又来了一 下载安装包1 官网下载2 网盘下载二 上传Linux虚拟机及解压三 内置文件配置四 环境变量配置五 测试1 本地模式`spark-shell`2 `spark-shell --master local[*]`3 `spark-shell master local[2]`4 单机模式一 下载安装包1 官网下载链接: Apache Spark.2 网盘下载链接: spark-2.4.5-bin-hadoop2.6.tgz.提取码:0pmd二 上传Linux虚拟机及解压上传压缩原创 2020-10-30 15:23:34 · 294 阅读 · 0 评论