Flink
文章平均质量分 84
Flink
程序终结者
我先说好,我发的需求案例都是经过我测试的,具有普遍代表性的案例,如果有问题请检查环境配置。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于华为MRS3.2.0实时Flink消费Kafka落盘至HDFS的Hive外部表的调度方案
该需求为实时接收对手Topic,并进行消费落盘至Hive。在具体的实施中,基于华为MRS 3.2.0安全模式带kerberos认证的Kafka2.4、Flink1.15、Hadoop3.3.1、Hive3.1,调度平台为开源dolphinscheduler。本需求的完成全部参考华为官方MRS3.2.0开发文档,相关章节是普通版的安全模式。原创 2024-01-17 18:32:20 · 2061 阅读 · 0 评论 -
接收Kafka数据并消费至Hive表
将Kafka中的数据消费到Hive可以通过以下简单而稳定的步骤来实现。这里假设的数据是以字符串格式存储在Kafka中的。创建Hive表:编写Kafka消费者脚本:Hive JDBC客户端:运行消费者脚本:这是一个基本的、简单的方式来实现从Kafka到Hive的数据流。这里的示例假设数据是以逗号分隔的字符串,实际上,需要根据数据格式进行相应的解析。这是一个简化的示例,真实场景中可能需要更多的配置和优化。确保环境中有Hive和Kafka,并根据实际情况调整配置。使用Flink处理Kafka数据原创 2023-12-31 22:50:01 · 5165 阅读 · 3 评论 -
【Flink实时数仓】需求二:用户事件信息宽表的构建 Kafka Hbase Flink
实时中的宽表其实是在退维,退维是数据处理中的一种操作,它是将细粒度的数据合并、归并为粗粒度数据的过程。在数据处理的过程中,原始数据往往包含大量的细节和细粒度信息,而有时候我们需要将这些细粒度数据转化为更高层次、更普遍的概要信息,以支持更广泛的数据分析和业务需求,这个过程就是退维。总之,退维是数据处理中的重要环节,它帮助我们从复杂的细粒度数据中提取出有用的信息,简化数据分析过程,同时还有助于节约存储空间和提高数据处理效率。通过退维,我们可以更好地理解数据,发现数据的规律和趋势,并支持更广泛的业务应用和决策。原创 2023-07-23 20:02:38 · 1316 阅读 · 0 评论 -
【Flink实时数仓】需求一:用户属性维表处理-Flink CDC 连接 MySQL 至 Hbase 实验及报错分析
这个代码是sql-client.sh中成功读取到MySQL插入的数据,此时在MySQL中对数据的操作即可通过FlinkCDC连接展示在此界面。下面这个黑窗口界面是Hbase的查看界面,首先在idea中启动上述的测试代码。通过清空和查看表名,也可以看到flink cdc的连接效果。使用Flink CDC连接MySQL,在Hbase中实时同步数据库的修改。这个只是其中一个报错,还有一些报错没有截图,是以依赖问题居多。这一步遇到过几个坑,依赖的冲突和依赖版本。这是在小松鼠界面输入的命令。原创 2023-07-21 19:23:40 · 785 阅读 · 1 评论 -
Flink面试题持续更新【2023-07-21】
需要注意的是,Spark 3.0引入了Structured Streaming,它在Spark Streaming的基础上进行了重构,以支持更高级的流处理功能和与批处理更紧密的一体化。需要注意的是,除了默认的消息语义之外,Flink和Spark Streaming都提供了灵活的配置选项和API,允许根据具体的应用需求调整消息语义级别。这意味着数据写入和状态保存是原子性的,要么同时成功,要么同时失败。Flink的分区策略对于作业的性能和效率非常重要,正确选择和使用分区策略可以显著提高作业的处理速度和可靠性。原创 2023-07-21 13:57:13 · 1632 阅读 · 0 评论 -
【基于Flink的城市交通实时监控平台】需求四:车辆违法路径跟踪-使用FlinkSQL在Dlink写入HBase
通过Kafka发送模拟实时车辆JSON信息给Flink接收,FlinkSQL将实时车辆JSON信息与表中已经捕捉到的违规违章车辆做连接对比,选择出通过当前路段的违章记录车辆,将其存入HBase中。本次需求四案例,将基于当前模拟了两辆车在表中,稍后启动Kafka Topic-car时,只有在该表中的车,会被记录到HBase。原创 2023-06-23 18:50:51 · 585 阅读 · 0 评论 -
【基于Flink的城市交通实时监控平台】需求三:实时车辆分布情况-滚动窗口-JSON解析为对象
实时车辆分布情况,是指在一段时间内(比如:10分钟)整个城市中每个区分布多少量车。这里要注意车辆的去重,因为在10分钟内一定会有很多的车,经过不同的卡口。这些车牌相同的车,我们只统计一次。其实就是根据车牌号去重。通过Kafka发送测试数据。查询MySQL表中结果。原创 2023-06-19 20:45:55 · 495 阅读 · 0 评论 -
【基于Flink的城市交通实时监控平台】需求二:卡口的实时拥堵情况-滑动窗口
卡口的实时拥堵情况,其实就是通过卡口的车辆平均车速和通过的车辆的数量,为了统计实时的平均车速,我设定一个滑动窗口,窗口长度是为5分钟,滑动步长为1分钟。任意从端口发送对应格式的数据即可。原创 2023-06-18 21:52:57 · 693 阅读 · 0 评论 -
【基于Flink的城市交通实时监控平台】需求一:卡口车辆超速情况检测
从kafka的topic-car中读取卡口数据,将超速车辆写入mysql的t_monitor_info表,当通过卡口的车速超过60就认定为超速。道路ID:城市中每一条道路都有名字,比如:航海路。交通部门会给航海路一个唯一编号。例如:1682219447,0001,1,豫DF09991,34.5,01,20。摄像头编号:一个卡口往往会有多个摄像头,每个摄像头都有一个唯一编号。以上分析来自ChatGPT3.5,由我整理完善。java bean的生成使用了Idea插件。区域ID代表:一个城市的行政区域。原创 2023-06-18 21:10:07 · 1013 阅读 · 2 评论 -
Flink-Checkpoint&State案例测试
##测试环境hadoop10伪分布式:flink hdfs。原创 2023-06-17 11:56:46 · 209 阅读 · 0 评论
分享