
spark
文章平均质量分 92
Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
赵广陆
优快云认证博客专家、优快云的Java领域优质创作者、全网30w+粉丝、超300w访问量、专注于大学生项目实战开发、讲解和答疑辅导、以及产品测评宣传、工具推广等合作。同时招收学生代理、校园代理,对于专业性数据证明一切!
展开
-
Spark SQL自定义函数
目录1 Spark SQL自定义函数1.1 自定义函数分类1.2 自定义UDF1.3 自定义UDAF2 开窗函数2.1、概述2.2.准备工作2.3. 聚合开窗函数2.4. 排序开窗函数2.4.1 ROW_NUMBER顺序排序2.4.2 RANK跳跃排序2.4.3 DENSE_RANK连续排序2.4.4 NTILE分组排名1 Spark SQL自定义函数1.1 自定义函数分类类似于hive当中的自定义函数, spark同样可以使用自定义函数来实现新的功能。spark中的自定义函数有如下3类1.U原创 2021-12-19 22:27:14 · 1711 阅读 · 0 评论 -
大数据Spark DataFrame/DataSet常用操作
目录1 一般操作:查找和过滤1.1 读取数据源1.1.1读取json1.1.2 读取Hive表1.2 取数据列1.3 过滤算子filter(filter等价于where算子)2 聚合操作:groupBy和agg2.1 排序算子sort(sort等价于orderBy)2.2 分组函数groupBy2.2.1 分组计数2.2.2 分组后求最值、平均值、求和的方法2.2.3 分组后,求多个聚合值(最值、平均值等)。使用算子groupBy+agg2.2.4 分组聚合后取别名2.2.5 分组后行转列,使用pivot2原创 2021-12-19 15:45:15 · 5029 阅读 · 0 评论 -
Spark多语言开发
目录1 多语言开发-说明2 Java-Spark-掌握2.1 SparkCore2.2 SparkStreaming2.3 SparkSQL2.4 StructuredStreaming2.5 线性回归算法-房价预测案例2.5.1 需求代码实现3 PySpark-了解3.1 SparkCore3.2 SparkStreaming3.3 SparkSQL3.4 StructuredStreaming3.5 决策树算法-相亲决策案例需求3.5.1 思路3.5.2 代码实现1 多语言开发-说明2 Java原创 2021-11-15 21:00:00 · 8522 阅读 · 0 评论 -
Spark学生答题情况分析
目录1 流程分析2 业务模块划分3 创建模块包结构4 准备Kafka主题4.1 测试发送数据到Kafka5 需求5.1 代码实现6 需求6.1 准备模型-直接训练并使用6.2 代码实现7 学生答题情况离线分析7.1 代码实现1 流程分析注意: 重点做的 2 3 4 部分2 业务模块划分准备工作3 创建模块包结构4 准备Kafka主题#查看topic信息/export/server/kafka/bin/kafka-topics.sh --list --zookeeper node1:2原创 2021-11-15 20:45:00 · 1799 阅读 · 2 评论 -
大数据Spark Streaming实时处理Canal同步binlog数据
目录1. Canal 环境搭建2 配置Canal2.1 下载Canal2.2 解压2.3 修改instance 配置文件2.4 修改canal.properties配置文件2.5 启动Canal2.6. 验证2.7. 关闭Canal3 Spark实现实时数据分析3.1 在Mysql中创建如下两张表3.2 Spark代码开发3.2.1 在resources下new一个项目的配置文件my.properties3.2.2 在pom.xml文件中引入如下依3.2.3 在scala源码目录下的包下编写配置文件的工具类原创 2021-11-12 20:45:00 · 2974 阅读 · 0 评论 -
Spark设计实现π的计算
目录1 分布式估算圆周率2 程序设计3 分布式运行3.1 采用本地模式提交sparkAPP.jar3.2 采用Yarn-client或Yarn-cluster模式提交1 分布式估算圆周率计算原理假设正方形的面积S等于x²,而正方形的内切圆的面积C等于Pi×(x/2)²,因此圆面积与正方形面积之比C/S就为Pi/4,于是就有Pi=4×C/S。可以利用计算机随机产生大量位于正方形内部的点,通过点的数量去近似表示面积。假设位于正方形中点的数量为Ps,落在圆内的点的数量为Pc,则随机点的数量趋近于无穷原创 2021-11-04 21:45:00 · 2097 阅读 · 0 评论 -
Spark Yarn模式部署集群
目录1 安装地址2 解压安装2.1 配置Linux环境变量2.2 scala环境配置2.3 配置spark-env.sh环境变量2.4 配置slaves文件2.5 将安装好的Spark复制到Slave3 启动并验证Spark1 安装地址http://archive.apache.org/dist/spark/spark-2.4.0/2 解压安装tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz2.1 配置Linux环境变量#sparkexport HADOO原创 2021-11-04 21:30:00 · 539 阅读 · 0 评论 -
大数据Spark MLlib基于模型的协同过滤
目录1 简介2 隐语义模型(LFM)3 LFM 降维方法 —— 矩阵因子分解3.1 矩阵因子分解3.2 矩阵因子分解计算4 LFM 的进一步理解4.1 矩阵因子分解5 模型的求解 —— 损失函数1 简介在大数据Spark MLlib推荐算法这篇文章中涉及到拆分,至于为什么拆分没有详解接下来写一下如何来构建模型.基于模型的协同过滤推荐,就是基于样本的用户偏好信息,训练一个推荐模型,然后根据实时的用户喜好的信息进行预测新物品的得分,计算推荐基于近邻的推荐和基于模型的推荐基于近邻的推荐是在预测时直接原创 2021-10-25 20:30:00 · 971 阅读 · 0 评论 -
大数据Spark MLlib推荐算法
目录1 相似度算法1.1 欧几里德距离算法1.2 基于夹角余弦相似度算法2 最近邻域3 交替最小二乘法3.1 最小二乘法3.2 交替最小二乘法3.3 ALS算法流程3.4 ALS算法实战3.4.1 数据说明3.4.2 数据建模3.4.3 实战3.4.4 优化改进1 相似度算法无论是基于用户还是基于商品的推荐,都是需要找到相似的用户或者商品,才能做推荐,所以,相似度算法就变得非常重要了。常见的相似度算法有:欧几里德距离算法(Euclidean Distance)皮尔逊相似度算法(Pearson原创 2021-10-24 18:21:50 · 7543 阅读 · 0 评论 -
Zeppelin调试Spark程序
目录1 什么是Zeppelin2 Zeppelin配置spark3 Zeppein运行spark程序3.1 创建spark notebook3.2 使用SparkSQL查看有多少数据库:3.3 使用SparkCore执行word count1 什么是Zeppelin详细安装入门概述:https://blog.youkuaiyun.com/ZGL_cyy/article/details/119342340a. Apache Zeppelin 是一个基于网页的交互式数据分析开源框架。Zeppelin提供了数据分析、原创 2021-10-05 23:54:22 · 913 阅读 · 0 评论 -
大数据Spark MLlib推荐系统
目录1 从广告说起推荐系统2 什么是推荐系统?3 电商是推荐系统的先行者4 推荐系统业务流程5 推荐系统所涉及到的知识6 协同过滤算法6.1 基于用户的推荐 UserCF6.2 基于商品的推荐 ItemCF6.3 如何选择?7 用户偏好收集7.1 数据的降噪和归一化1 从广告说起推荐系统先如今,广告可谓是无处不在,报纸、电视、视频网站、短信、邮件等等。弹框广告:未来广告:精准推荐,不再让人们对广告反感,而是会感觉到惊讶。只要做到精准,“广告”就不再是“广告”。2 什么是推荐系统?为了原创 2021-10-04 23:08:54 · 1261 阅读 · 0 评论 -
大数据Spark MLlib机器学习
目录1 什么是Spark MLlib?2 支持的数据类型2.1 本地向量集2.1.1、密集型数据集2.1.2 稀疏型数据集2.2 向量标签2.3 本地矩阵2.4 分布式矩阵2.4.1 行矩阵2.4.2 行索引矩阵2.4.3 坐标矩阵2.4.4 分块矩阵3 RDD、DataSet、Dataframe区别及转化1 什么是Spark MLlib?MLlib是Spark的机器学习(ML)库。旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协原创 2021-10-04 15:34:19 · 1034 阅读 · 0 评论 -
大数据Spark Continuous Processing
目录1 连续处理概述2 编程实现3 支持查询1 连续处理概述连续处理(Continuous Processing)是Spark 2.3中引入的一种新的实验性流执行模式,可实现低的(~1 ms)端到端延迟,并且至少具有一次容错保证。 将其与默认的微批处理(micro-batchprocessing)引擎相比较,该引擎可以实现一次性保证,但最多可实现~100ms的延迟。在实时流式应用中,最典型的应用场景:网站UV统计。业务需求一:实时统计网站UV,比如每日网站UV;业务需求二:统计最近一段时间(比原创 2021-09-03 19:14:21 · 703 阅读 · 0 评论 -
大数据Spark物联网设备数据分析
目录1 设备监控数据1.1 创建 Topic1.2 模拟数据2 基于DataFrame分析3 基于SQL分析4 时间概念5 event-time 窗口分析6 event-time 窗口生成7 延迟数据处理7.1 延迟数据7.2 Watermarking 水位7.3 官方案例演示1 设备监控数据在物联网时代,大量的感知器每天都在收集并产生着涉及各个领域的数据。物联网提供源源不断的数据流,使实时数据分析成为分析数据的理想工具。模拟一个智能物联网系统的数据统计分析,产生设备数据发送到Kafka,结构化流S原创 2021-09-03 19:14:05 · 1880 阅读 · 0 评论 -
大数据Spark Structured Streaming集成 Kafka
目录1 Kafka 数据消费2 Kafka 数据源3 Kafka 接收器3.1 配置说明3.2 实时数据ETL架构3.3 模拟基站日志数据3.4 实时增量ETL4 Kafka 特定配置1 Kafka 数据消费Apache Kafka 是目前最流行的一个分布式的实时流消息系统,给下游订阅消费系统提供了并行处理和可靠容错机制,现在大公司在流式数据的处理场景,Kafka基本是标配。StructuredStreaming很好的集成Kafka,可以从Kafka拉取消息,然后就可以把流数据看做一个DataFram原创 2021-09-03 19:13:49 · 1165 阅读 · 0 评论 -
大数据Spark偏移量管理
目录1 重构代码2 Checkpoint 恢复3 MySQL 存储偏移量3.1 编写工具类3.2 加载和保存偏移量1 重构代码针对前面实现【百度热搜排行榜Top10】实时状态统计应用来说,当应用关闭以后,再次启动(Restart)执行,并没有继续从上次消费偏移量读取数据和获取以前状态信息,而是从最新偏移量(Latest Offset)开始的消费,肯定不符合实际需求,有两种解决方式:方式一:Checkpoint 恢复当流式应用再次启动时,从Checkpoint 检查点目录恢复,可以读取上次消费原创 2021-09-03 19:13:21 · 818 阅读 · 0 评论 -
大数据Spark实时搜索日志实时分析
目录1 业务场景2 初始化环境2.1 创建 Topic2.2 模拟日志数据2.3 StreamingContextUtils 工具类3 实时数据ETL存储4 实时状态更新统计4.1 updateStateByKey 函数4.2 mapWithState 函数5 实时窗口统计1 业务场景百度搜索风云榜(http://top.baidu.com/)以数亿网民的单日搜索行为作为数据基础,以搜索关键词为统计对象建立权威全面的各类关键词排行榜,以榜单形式向用户呈现基于百度海量搜索数据的排行信息,线上覆盖十余个行原创 2021-09-01 22:02:35 · 1548 阅读 · 1 评论 -
大数据Spark Streaming Queries
目录1 输出模式2 查询名称3 触发间隔4 检查点位置5 输出终端(Sinks)5.1 文件接收器5.2 Memory Sink5.3 Foreach Sink5.4 ForeachBatch Sink6 容错语义7 Kafka 数据消费8 Kafka 数据源9 Kafka 接收器9.1 配置说明9.2 实时数据ETL架构9.3 模拟基站日志数据9.4 实时增量ETL10 Kafka 特定配置1 输出模式在StructuredStreaming中定义好Result DataFrame/Dataset后原创 2021-08-29 19:13:09 · 689 阅读 · 2 评论 -
大数据Spark Structured Streaming
目录1 Spark Streaming 不足2 Structured Streaming 概述2.1 模块介绍2.3 编程模型3 入门案例:WordCount3.1 功能演示3.2 Socket 数据源3.3 Console 接收器3.4 编程实现4 DataStreamReader 接口5 文件数据源6 Rate source1 Spark Streaming 不足Apache Spark在2016年的时候启动了Structured Streaming项目,一个基于Spark SQL的全新流计算引擎原创 2021-08-29 18:48:38 · 718 阅读 · 0 评论 -
大数据Spark Streaming集成Kafka
目录1 整合Kafka 0.8.21.1 回顾 Kafka 概念1.2 集成方式1.3 两种方式区别2 Direct 方式集成2.1 编码实现2.2 底层原理3 集成Kafka 0.10.x4 获取偏移量1 整合Kafka 0.8.2在实际项目中,无论使用Storm还是SparkStreaming与Flink,主要从Kafka实时消费数据进行处理分析,流式数据实时处理技术架构大致如下:技术栈: Flume/SDK/Kafka Producer API -> KafKa —> SparkS原创 2021-08-26 23:34:47 · 776 阅读 · 0 评论 -
大数据Spark DStream
目录1 DStream 是什么2 DStream Operations2.1 函数概述2.2 转换函数:transform2.3 输出函数:foreachRDD3 流式应用状态1 DStream 是什么SparkStreaming模块将流式数据封装的数据结构:DStream(Discretized Stream,离散化数据流,连续不断的数据流),代表持续性的数据流和经过各种Spark算子操作后的结果数据流。离散数据流(DStream)是Spark Streaming最基本的抽象。它代表了一种连续的数据原创 2021-08-26 23:34:39 · 661 阅读 · 0 评论 -
大数据Spark Streaming入门
目录1 官方案例运行2 编程实现2.1 StreamingContext2.2 编写代码2.3 Streaming 应用监控3 Streaming 工作原理3.1 创建 StreamingContext3.2 接收器接收数据3.3 汇报接收Block报告3.4 Streaming 工作原理总述1 官方案例运行SparkStreaming官方提供Example案例,功能描述:从TCP Socket数据源实时消费数据,对每批次Batch数据进行词频统计WordCount,流程图如下:1、数据源:TCP原创 2021-08-26 23:34:24 · 414 阅读 · 0 评论 -
大数据Spark Streaming概述
目录1 Streaming 应用场景2 Lambda 架构3 Streaming 计算模式4 SparkStreaming 计算思想1 Streaming 应用场景在很多实时数据处理的场景中,都需要用到流式处理(Stream Process)框架,Spark也包含了两个完整的流式处理框架Spark Streaming和Structured Streaming(Spark 2.0出现),先阐述流式处理框架,之后介绍Spark Streaming框架使用。在传统的数据处理过程中,我们往往先将数据存入数原创 2021-08-26 23:33:51 · 1134 阅读 · 0 评论 -
大数据Spark External DataSource
目录1 数据源与格式2 加载/保存数据2.1 Load 加载数据2.2 Save 保存数据2.3 案例演示2.4 保存模式(SaveMode)3 parquet 数据4 text 数据5 json 数据6 csv 数据7 rdbms 数据8 hive 数据8.1 spark-shell 集成 Hive8.2 IDEA 集成 Hive1 数据源与格式在SparkSQL模块,提供一套完成API接口,用于方便读写外部数据源的的数据(从Spark 1.4版本提供),框架本身内置外部数据源:在Spark 2.原创 2021-08-25 23:22:45 · 368 阅读 · 0 评论 -
大数据Spark分布式SQL引擎
目录1 Spark SQL CLI2 ThriftServer JDBC/ODBC Server2.1 beeline 客户端2.2 JDBC/ODBC 客户端1 Spark SQL CLI 回顾一下,如何使用Hive进行数据分析的,提供哪些方式交互分析???方式一:交互式命令行(CLI)bin/hive,编写SQL语句及DDL语句方式二:启动服务HiveServer2(Hive ThriftServer2)将Hive当做一个服务启动(类似MySQL数据库,启动一个服务),端原创 2021-08-25 23:22:01 · 416 阅读 · 0 评论 -
大数据Spark SQL快速入门
目录1 SparkSession 应用入口2 词频统计WordCount2.1 基于DSL编程2.2 基于SQL编程3 数据处理分析3.1 基于DSL分析3.2 基于SQL分析1 SparkSession 应用入口Spark 2.0开始,应用程序入口为SparkSession,加载不同数据源的数据,封装到DataFrame/Dataset集合数据结构中,使得编程更加简单,程序运行更加快速高效。SparkSession:这是一个新入口,取代了原本的SQLContextAPI的用户来说,Spark常见原创 2021-08-25 23:21:37 · 390 阅读 · 0 评论 -
大数据Spark Dataset
目录1 Dataset 是什么2 对比DataFrame3 RDD、DF与DS转换4 面试题:如何理解RDD、DataFrame和Dataset1 Dataset 是什么Dataset是在Spark1.6中添加的新的接口,是DataFrame API的一个扩展,是Spark最新的数据抽象,结合了RDD和DataFrame的优点。与RDD相比:保存了更多的描述信息,概念上等同于关系型数据库中的二维表;与DataFrame相比:保存了类型信息,是强类型的,提供了编译时类型检查,调用Dataset的方原创 2021-08-24 21:03:21 · 563 阅读 · 0 评论 -
大数据Spark电影评分数据分析
目录1 数据 ETL2 使用 SQL 分析3 使用 DSL 分析4 保存结果数据5 案例完整代码6 Shuffle 分区数目问题1 数据 ETL使用电影评分数据进行数据分析,分别使用DSL编程和SQL编程,熟悉数据处理函数及SQL使用,业务需求说明:对电影评分数据进行统分析,获取Top10电影(电影评分平均值最高,并且每个电影被评分的次数大于2000)。数据集ratings.dat总共100万条数据,数据格式如下每行数据各个字段之间使用双冒号分开:数据处理分析步骤如下:1. 第一步、读取电影评分原创 2021-08-24 21:03:06 · 7676 阅读 · 6 评论 -
大数据Spark DataFrame
目录1 DataFrame是什么2 Schema 信息3 Row4 RDD转换DataFrame4.1 反射类型推断4.2 自定义Schema1 DataFrame是什么DataFrame它不是Spark SQL提出来的,而是早期在R、Pandas语言就已经有了的。就易用性而言,对比传统的MapReduce API,说Spark的RDD API有了数量级的飞跃并不为过。然而,对于没有MapReduce和函数式编程经验的新手来说,RDD API仍然存在着一定的门槛。另一方面,数据科学家们所熟悉的R、Pa原创 2021-08-24 20:37:05 · 780 阅读 · 0 评论 -
大数据Spark RDD持久化和Checkpoint
目录1 缓存函数2 缓存级别3 释放缓存4 何时缓存数据5 RDD Checkpoint1 缓存函数在实际开发中某些RDD的计算或转换可能会比较耗费时间,如果这些RDD后续还会频繁的被使用到,那么可以将这些RDD进行持久化/缓存,这样下次再使用到的时候就不用再重新计算了,提高了程序运行的效率。可以将RDD数据直接缓存到内存中,函数声明如下:但是实际项目中,不会直接使用上述的缓存函数,RDD数据量往往很多,内存放不下的。在实际的项目中缓存RDD数据时,往往使用如下函数,依据具体的业务和数据量,指定原创 2021-08-24 20:36:55 · 368 阅读 · 0 评论 -
大数据Spark对SogouQ日志分析
目录1 业务需求2 准备工作2.1 HanLP 中文分词2.2 样例类 SogouRecord3 业务实现3.1 读取数据3.2 搜索关键词统计3.3 用户搜索点击统计3.4 搜索时间段统计3.5 完整代码1 业务需求使用搜狗实验室提供【用户查询日志(SogouQ)】数据,使用Spark框架,将数据封装到RDD中进行业务数据处理分析。数据网址:http://www.sogou.com/labs/resource/q.php1)、数据介绍:搜索引擎查询日志库设计为包括约1个月(2008年6月)S原创 2021-08-23 22:07:21 · 2422 阅读 · 6 评论 -
大数据Spark RDD 函数
目录1 函数分类2 Transformation函数3 Action函数4 重要函数4.1 基本函数4.2 分区操作函数4.3 重分区函数4.4 聚合函数4.4.1 集合中聚合函数4.4.2 RDD 中聚合函数4.4.3 PairRDDFunctions 聚合函数4.4.4 面试题4.5 关联函数5 函数练习5.1 map 函数5.2 filter 函数5.3 flatMap 函数5.4 交集、并集、差集、笛卡尔积5.5 distinct 函数5.6 first、take、top 函数5.7 keys、va原创 2021-08-23 21:20:10 · 825 阅读 · 0 评论 -
大数据Spark RDD介绍
目录1 RDD 定义2 RDD 特性3 WordCount中RDD1 RDD 定义对于大量的数据,Spark 在内部保存计算的时候,都是用一种叫做弹性分布式数据集(ResilientDistributed Datasets,RDD)的数据结构来保存的,所有的运算以及操作都建立在 RDD 数据结构的基础之上。在Spark开山之作Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-MemoryCluster Comput原创 2021-08-21 00:01:44 · 510 阅读 · 0 评论 -
大数据Spark机器学习
目录1 冒泡排序2 机器学习3 什么是机器学习1 冒泡排序按照一定得顺序执行某一些操作, 最终实现某些功能演绎法function bubbleSort(arr) { var len = arr.length; for (var i = 0; i < len; i++) { for (var j = 0; j < len - 1 - i; j++) { if (arr[j] > arr[j+1]) { // 相原创 2021-08-03 21:57:02 · 301 阅读 · 0 评论 -
大数据Spark外部数据源
目录1 HBase 数据源1.1 HBase Sink1.2 HBase Source2 MySQL 数据源3 SHC 操作Hbase基本使用3.1 生成 JSON1 HBase 数据源Spark可以从外部存储系统读取数据,比如RDBMs表中或者HBase表中读写数据,这也是企业中常常使用,如下两个场景:1)、要分析的数据存储在HBase表中,需要从其中读取数据数据分析日志数据:电商网站的商家操作日志订单数据:保险行业订单数据2)、使用Spark进行离线分析以后,往往将报表结果保存原创 2021-03-14 19:20:01 · 586 阅读 · 0 评论 -
大数据Spark部署模式DeployMode
目录1 两种模式区别1.1 client 模式1.2 cluster 模式1.3 两者比较2 Spark on YARN2.1 YARN Client 模式2.2 YARN Cluster 模式3 MAIN函数代码执行4 再续 Spark 应用1 两种模式区别Spark Application提交运行时部署模式Deploy Mode,表示的是Driver Program运行的地方,要么是提交应用的Client:client,要么是集群中从节点(Standalone:Worker,YARN:NodeM原创 2021-05-05 00:06:42 · 1433 阅读 · 0 评论 -
大数据Spark on YARN
目录1 属性配置1.1 设置环境变量1.2 历史服务MRHistoryServer地址1.3 历史服务HistoryServer地址1.4 配置依赖Spark Jar包1.5 YARN 资源检查2 启动服务3 提交应用1 属性配置将Spark Application提交运行到YARN集群上,至关重要,企业中大多数都是运行在YANR上,文档: http://spark.apache.org/docs/2.4.5/running-on-yarn.html#launching-spark-on-yarn原创 2021-05-05 00:02:22 · 543 阅读 · 1 评论 -
大数据Spark IDEA应用开发
目录1 构建Maven Project2 应用入口:SparkContext3 编程实现:WordCount4 编程实现:TopKey5 Spark 应用提交5.1 应用提交语法5.2 基本参数配置5.3 Driver Program 参数配置5.4 Executor 参数配置5.5 官方案例6 应用打包运行1 构建Maven Project实际开发Spark 应用程序使用IDEA集成开发环境,Spark课程所有代码均使用Scala语言开发,利用函数式编程分析处理数据,更加清晰简洁。企业中也使用Jav原创 2021-05-04 23:58:12 · 679 阅读 · 0 评论 -
大数据Spark Standalone集群
目录1 Standalone 架构2 配置、部署及启动2.1 解压、环境变量2.2 Workers主机名称2.3 配置Master、Workers、HistoryServer2.4 创建EventLogs存储目录2.5 配置Spark应用保存EventLogs2.6 设置日志级别2.7 分发到集群所有机器2.8 启动服务进程2.9 提交运行圆周率3 Spark 应用架构4 WEB UI 监控5 Standalone HA5.1 高可用HA5.2 基于Zookeeper实现HA5.3 测试运行1 Stan原创 2021-05-04 23:53:59 · 743 阅读 · 0 评论 -
大数据Spark快速入门
目录1 环境准备2 源码编译3 Spark 安装4 运行spark-shell5 词频统计WordCount5.1 MapReduce WordCount5.2 Spark WordCount5.3 编程实现5.4 监控页面6 运行圆周率1 环境准备目前Spark最新稳定版本:2.4.x系列,官方推荐使用的版本,也是目前企业中使用较多版本,网址:https://github.com/apache/spark/releasesSpark 2.4.x依赖其他语言版本如下,其中既支持Scala 2.1原创 2021-05-04 23:47:25 · 704 阅读 · 0 评论