
Spark/Flink
文章平均质量分 85
spark和flink流批式计算开发和应用背景
不以物喜2020
大数据开发工程师一枚
展开
-
Flink流式计算之ProcessionFunction说明与案例
0 ProcessFunction API我们之前学习的转换算子是无法访问事件的时间戳信息和水位线信息的。而这在一些应用场景下,极为重要。例如MapFunction这样的map转换算子就无法访问时间戳或者当前事件的事件时间。基于此,DataStream API提供了一系列的Low-Level转换算子。可以访问时间戳、watermark以及注册定时事件。还可以输出特定的一些事件,例如超时事件等。Process Function用来构建事件驱动的应用以及实现自定义的业务逻辑(使用之前的window函数和转换原创 2021-07-13 19:59:32 · 476 阅读 · 6 评论 -
Flink流式计算之windows介绍与说明
1 介绍streaming流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长的本质上无限的数据集,而window是一种切割无限数据为有限块进行处理的手段。Window可以分成两类: CountWindow:按照指定的数据条数生成一个Window,与时间无关。 TimeWindow:按照时间生成Window。对于TimeWindow,可以根据窗口实现原理的不同分成三类:滚动窗口(Tumbling Window)、滑动窗口(Sliding Window)和会话窗口(转载 2021-07-05 21:11:40 · 284 阅读 · 0 评论 -
Flink流式计算介绍之Transformer
0 准备准备测试数据:sensor_1,1624006065247,43.92789292115926sensor_2,1624006065247,97.45845640790921sensor_3,1624006065247,41.35949935067326sensor_4,1624006065247,86.68115422056633sensor_5,1624006065247,52.53673229860578sensor_6,1624006065247,56.660350814701原创 2021-07-05 20:53:49 · 453 阅读 · 2 评论 -
Flink流式计算之时间语义与watermark
1 说明在Flink的流式处理中,会涉及到时间的不同概念,如下图所示:Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink通过时间戳分配器访问事件时间戳。Ingestion Time:是数据进入Flink的时间。Processing Time:是每一个执行基于时间操作的算子的本地系统时间,与机器相关,默认的时间属性就是Processing Time。例如,一条日志进入Flink的时间为2017-11-12 10:0原创 2021-07-05 21:22:38 · 425 阅读 · 4 评论 -
Fllink流式计算Sink介绍
0 说明Flink没有类似于spark中foreach方法,让用户进行迭代的操作。虽有对外的输出操作都要利用Sink完成。最后通过类似如下方式完成整个任务最终输出操作。 stream.addSink(new MySink(xxxx)) 官方提供了一部分的框架的sink。除此以外,需要用户自定义实现sink1 kafka1.1 添加依赖 <dependency> <groupId>org.apache.flink</groupId>原创 2021-07-05 21:03:33 · 476 阅读 · 4 评论 -
大数据Flink组件安装部署
0 介绍Flink起源于Stratosphere项目,Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目,2014年4月Stratosphere的代码被复制并捐赠给了Apache软件基金会,参加这个孵化项目的初始成员是Stratosphere系统的核心开发人员,2014年12月,Flink一跃成为Apache软件基金会的顶级项目。在德语中,Flink一词表示快速和灵巧,项目采用一只松鼠的彩色图案作为logo,这不仅是因为松鼠具有快速和灵巧的特点,原创 2021-06-30 20:47:23 · 297 阅读 · 2 评论 -
Spark-SQL学习与快速入门
0 什么是 Spark SQLSpark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块.与基本的 Spark RDD API 不同, Spark SQL 的抽象数据类型为 Spark 提供了关于数据结构和正在执行的计算的更多信息.在内部, Spark SQL 使用这些额外的信息去做一些额外的优化.有多种方式与 Spark SQL 进行交互, 比如: SQL 和 Dataset API. 当计算结果的时候, 使用的是相同的执行引擎, 不依赖你正在使用原创 2021-06-24 12:30:36 · 445 阅读 · 4 评论 -
Spark-Streaming流式处理学习与快速入门指南
1 Spark Streaming是什么Spark Streaming 是 Spark 核心 API 的扩展, 用于构建弹性, 高吞吐量, 容错的在线数据流的流式处理程序. 总之一句话: Spark Streaming 用于流式数据的处理在 Spark Streaming 中,处理数据的单位是一批而不是单条,而数据采集却是逐条进行的,因此 Spark Streaming 系统需要设置间隔使得数据汇总到一定的量后再一并操作,这个间隔就是批处理间隔。批处理间隔是 Spark Streaming 的核心概念原创 2021-06-23 22:22:14 · 464 阅读 · 4 评论 -
Spark-core项目实战——电商用户行为数据分析
0 数据准备本实战项目的数据是采集自电商的用户行为数据.主要包含用户的 4 种行为: 搜索, 点击, 下单和支付.数据格式如下, 不同的字段使用下划线分割开_:数据说明:数据采用_分割字段每一行表示用户的一个行为, 所以每一行只能是四种行为中的一种.如果搜索关键字是 null, 表示这次不是搜索如果点击的品类 id 和产品 id 是 -1 表示这次不是点击下单行为来说一次可以下单多个产品, 所以品类 id 和产品 id 都是多个, id 之间使用逗号,分割. 如果本次不是下单行为, 则原创 2021-05-27 11:12:39 · 3477 阅读 · 8 评论 -
SparkHA高可用集群搭建
1 Spark HA高可用模式部署如果设置master只有一个, 所以也可能单点故障问题。可以启动多个 master, 先启动的处于 Active 状态, 其他的都处于 Standby 状态。步骤1: 给 spark-env.sh 添加如下配置添加上如下内容:export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=master-1:2181,master-2:原创 2021-05-15 18:36:01 · 339 阅读 · 0 评论 -
Spark standalone和yarn模式安装部署
1 安装1) 下载https://archive.apache.org/dist/spark/2) 解压下载安装包tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz2 standalone模式2.1 说明构建一个由 Master + Slave 构成的 Spark 集群,Spark 运行在集群中。这个要和 Hadoop 中的 Standalone 区别开来. 这里的 Standalone 是指只用 Spark 来搭建一个集群, 不需要借助其他的框架.是相对于 Yar原创 2021-05-15 18:26:35 · 1217 阅读 · 0 评论 -
Spark集群运行在yarn上
1. 官方文档http://spark.apache.org/docs/latest/running-on-yarn.html2. 配置安装2.1 安装hadoop需要安装HDFS模块和YARN模块,HDFS必须安装,spark运行时要把jar包存放到HDFS上。2.2安装Spark:解压Spark安装程序到一台服务器上,修改spark-env.sh配置文件,spark程序将作为YARN的客户端用于提交任务export JAVA_HOME=/usr/local/jdk1.8.0_131exp原创 2020-09-08 22:59:41 · 435 阅读 · 0 评论 -
Spark SQL简介与快速入门
1 Spark SQL1.1 Spark SQL概述1.1.1 什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。1.1.2 为什么要学习Spark SQL我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将S原创 2020-09-08 22:52:33 · 218 阅读 · 0 评论 -
Spark算子RDD介绍
1 RDD概述1.1 什么是RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。1.2 RDD的属性1)一组分片(Partition),即数据集的基本组成单位。对于RDD来说,每个分片都会被一个计算任务处原创 2020-09-08 22:18:44 · 196 阅读 · 0 评论 -
Spark快速入门详解/分析
1 Spark概述1.1 什么是Spark官网:http://spark.apache.orgSpark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。Spark基于内原创 2020-09-08 22:09:17 · 314 阅读 · 0 评论