
小坏讲大数据Spark第十阶段
文章平均质量分 75
小坏讲大数据Spark第十阶段
小坏讲微服务
熟悉各种微服务架构、一个菜鸟级别的后端小白、啥时候月薪过万呀、让你学习不在发愁的网站:https://www.e404e.cn
展开
-
SparkStreaming 案例实操 完整使用 (第十七章)
2、生产数据二、需求一:广告黑名单实现实时的动态黑名单机制:将每天点击超过 100 次的用户拉黑。。1)读取 Kafka 数据之后,并对 MySQL 中存储的黑名单数据做校验;2)校验通过则对给用户点击广告次数累加一并存入 MySQL;3)在存入 MySQL 之后对数据做校验,如果单日超过 100 次则将该用户加入黑名单。3) 存放单日各用户点击每个广告的次数4) 代码实现5) 优化三、需求二:广告点击量实时统计描述:实时统计每天各地区各城市各广告的点击总流量,并将其存入 MyS原创 2022-08-02 17:34:27 · 886 阅读 · 2 评论 -
大数据之优雅关闭 完整使用 (第十六章)
流式任务需要7*24小时执行,但是有时涉及到升级代码需要主动停止程序,但是分布式程序,没办法做到一个个进程去杀死,所有配置优雅的关闭就显得至关重要了。使用外部文件系统来控制内部程序关闭。......原创 2022-07-25 10:50:42 · 344 阅读 · 0 评论 -
大数据之DStream 输出 完整使用 (第十五章)
与RDD中的惰性求值类似,如果一个DStream及其派生出的DStream都没有被执行输出操作,那么这些DStream就都不会被求值。➢saveAsObjectFiles(prefix,[suffix])以Java对象序列化的方式将Stream中的数据保存为SequenceFiles.每一批次的存储文件名基于参数中的为"prefix-TIME_IN_MS[.suffix]".Python中目前不可用。每一批次的存储文件名基于参数中的prefix和suffix。...原创 2022-07-25 10:06:01 · 314 阅读 · 0 评论 -
大数据之DStream 转换 完整使用 (第十四章)
DStream上的操作与RDD的类似,分为Transformations(转换)和OutputOperations(输出)两种,此外转换操作中还有一些比较特殊的原语,如updateStateByKey()、transform()以及各种Window相关的原语。原创 2022-07-20 15:23:04 · 1111 阅读 · 0 评论 -
大数据之SparkDStream 创建 完整使用 (第十三章)
需要继承Receiver,并实现onStart、onStop方法来自定义数据源采集。*DStream创建*自定义数据采集器Unit={原创 2022-07-19 15:46:28 · 627 阅读 · 0 评论 -
大数据之SparkDstream 入门 完整使用 (第十二章)
DiscretizedStream是SparkStreaming的基础抽象,代表持续性的数据流和经过各种Spark原语操作后的结果数据流。在内部实现上,DStream是一系列连续的RDD来表示。每个RDD含有一段时间间隔内的数据。➢需求使用netcat工具向9999端口不断的发送数据,通过SparkStreaming读取端口数据并。对数据的操作也是按照RDD为单位来进行的。计算过程由SparkEngine来完成。统计不同单词出现的次数。...原创 2022-07-18 11:26:56 · 391 阅读 · 0 评论 -
大数据之SparkStreaming 完整使用 (第十一章)
数“spark.streaming.receiver.maxRate”的值来实现,此举虽然可以通过限制接收速率,来适配当前。到的数据都作为RDD存在,而DStream是由这些RDD所组成的序列(因此得名“离散化”)。为了更好的协调数据接收速率与资源处理能力,1.5版本开始SparkStreaming可以动态控制。Spark1.5以前版本,用户如果要限制Receiver的数据接收速率,可以通过设置静态配制参。的处理能力,防止内存溢出,但也会引入其它问题。false,即不启用。...原创 2022-07-18 11:06:18 · 582 阅读 · 0 评论 -
大数据之SparkSQL 核心编程 完整使用 (第九章)
➢ 查看 Spark 支持创建文件的数据源格式➢ 在 spark 的 bin/data 目录中创建 user.json 文件➢ 读取 json 文件创建 DataFrame在后续章节中讨论在后续章节中讨论2) 对 DataFrame 创建一个临时表3) 通过 SQL 语句实现查询全表4) 结果展示6) 通过 SQL 语句实现查询全表5、DSL 语法DataFrame 提供一个特定领域语言(domain-specific language, DSL)去管理结构化的数据。可以在原创 2022-07-12 11:07:26 · 798 阅读 · 0 评论 -
大数据之SparkSQL 完整使用 (第八章)
SparkSQL 的前身是 Shark,给熟悉 RDBMS 但又不理解 MapReduce 的技术人员提供快速上手的工具。Hive 是早期唯一运行在 Hadoop 上的 SQL-on-Hadoop 工具。但是 MapReduce 计算过程中大量的中间磁盘落地过程消耗了大量的 I/O,降低的运行效率,为了提高 SQL-on-Hadoop的效率,大量的 SQL-on-Hadoop 工具开始产生,其中表现较为突出的是:⚫ Drill⚫ Impala⚫ Shark其中 Shark 是伯克利实验室 S原创 2022-07-04 17:14:19 · 807 阅读 · 0 评论 -
大数据之Spark 源码分析完整使用(第七章)
大数据之Spark 源码分析原创 2022-07-04 16:50:51 · 502 阅读 · 0 评论 -
大数据之Spark 源码分析完整使用(第七章)
大数据之Spark 源码分析原创 2022-07-04 16:49:56 · 282 阅读 · 0 评论 -
大数据之Spark案例实操完整使用(第六章)
上面的数据图是从数据文件中截取的一部分内容,表示为电商网站的用户行为数据,主要包含用户的 4 种行为:搜索,点击,下单,支付。数据规则如下:➢ 数据文件中每行数据采用下划线分隔数据➢ 每一行数据表示用户的一次行为,这个行为只能是 4 种行为的一种➢ 如果搜索关键字为 null,表示数据不是搜索数据➢ 如果点击的品类 ID 和产品 ID 为-1,表示数据不是点击数据➢ 针对于下单行为,一次可以下单多个商品,所以品类 ID 和产品 ID 可以是多个,id 之间采用逗号分隔,如果本次不是下单行为,则数据采用 nu原创 2022-06-27 10:02:24 · 2669 阅读 · 1 评论 -
大数据之Spark 核心编程概述完整使用(第五章)
大数据之Spark 核心编程概一、RDD1、什么是 RDD2、核心属性二级目录三级目录Spark 计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于处理不同的应用场景。三大数据结构分别是:➢ RDD : 弹性分布式数据集➢ 累加器:分布式共享只写变量➢ 广播变量:分布式共享只读变量接下来我们一起看看这三大数据结构是如何在数据处理中使用的。一、RDD1、什么是 RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spar原创 2022-06-13 11:53:36 · 520 阅读 · 0 评论 -
大数据之Spark 运行架构 概述 完整使用(第四章)
大数据之Spark 运行架构概述一、运行架构二、核心组件1、Driver2、Executor3、Master & Worker4、ApplicationMaster三、核心概念1、Executor 与 Core2、并行度(Parallelism)3、有向无环图(DAG)四、提交流程1、Yarn Client 模式2、Yarn Cluster 模式一、运行架构Spark 框架的核心是一个计算引擎,整体来说,它采用了标准 master-slave 的结构。 如下图所示,它展示了一个 Spark 执原创 2022-03-11 09:44:01 · 569 阅读 · 1 评论 -
大数据之Spark 运行环境概述 完整使用(第三章)
大数据之Spark 运行环境概述 完整使用一、Spark 运行环境1、Local 模式1)解压缩文件2)启动 Local 环境2、命令行工具3、退出本地模式4、提交应用二、Standalone 模式1、解压缩文件2、修改配置文件1) 进入解压缩后路径的 conf 目录,修改 slaves.template 文件名为 slaves2) 修改 slaves 文件,添加 work 节点3) 修改 spark-env.sh.template 文件名为 spark-env.sh4) 修改 spark-env.sh 文原创 2022-03-09 14:07:07 · 869 阅读 · 0 评论 -
大数据之Spark 快速上手 概述 完整使用(第二章)
大数据之Spark快速上手概述一、实操1、增加 Scala 插件2、增加依赖关系3、WordCount4、异常处理一、实操1、增加 Scala 插件2、增加依赖关系<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.0.0<原创 2022-03-09 11:25:19 · 2283 阅读 · 0 评论 -
大数据之Spark 概述 完整使用(第一章)
大数据之Spark 概述 完整使用一、Spark 是什么1、Spark and Hadoop二级目录三级目录一、Spark 是什么Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1、Spark and Hadoop在之前的学习中,Hadoop 的 MapReduce 是大家广为熟知的计算框架,那为什么咱们还要学习新的计算框架 Spark 呢,这里就不得不提到 Spark 和 Hadoop 的关系。首先从时间节点上来看:➢ Hadoop⚫ 2006 年 1 月,Doug C原创 2022-03-09 11:08:21 · 262 阅读 · 1 评论