
Flink
文章平均质量分 88
Flink的学习记录,掌握大数据时代的批流一体利器!
AIMaynor
个人博客:maynor1024.live,ai网站: vlink.cc/maynorai
展开
-
基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例(四)实时计算需求及技术方案
目标了解Flink的功能、特点及应用场景路径step1:功能step2:特点step3:应用实施功能:可以基于任何普通的集群平台,对有界的数据流或者无界的数据流实现高性能的有状态的分布式实时计算Flink DataSet:对有界数据进行批处理操作Flink DataStream:对无界数据进行实时处理操作Flink Table:基于DSL实现结构化数据处理Flink SQL:基于SQL实现结构化数据处理Flink Gelly:Flink的图计算库。原创 2023-10-19 15:57:18 · 794 阅读 · 1 评论 -
基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例(五)FineBI可视化
将创建好的refresh.js文件放至 FineBI 安装目录%FineBI%/webapps/webroot中。官方文档:https://help.fanruan.com/finebi/doc-view-363.html。:将jar包放入FineBI安装目录的 webapps\webroot\WEB-INF\lib目录下。参考《FineBI Windows版本安装手册.docx》安装FineBI。启动Flink程序:运行MoMoFlinkCount。修改jar包,添加js。清空MySQL结果表。原创 2023-10-19 16:03:41 · 2403 阅读 · 0 评论 -
基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例(三)离线分析
查询需求:根据发件人id + 收件人id + 消息日期 查询聊天记录。Qualifier:与数据中字段名保持一致。设计规则:业务、唯一、长度、散列、启动Hive和yarn。原创 2023-10-13 15:27:26 · 1001 阅读 · 0 评论 -
基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例(二)数据源
结果:生成模拟数据文件MOMO_DATA.dat,并且每条数据中字段分隔符为\001。删除Flume自带的guava包,替换成Hadoop的。需求:采集聊天数据,实时写入Kafka。需求:采集聊天数据,写入HDFS。测试:每500ms生成一条数据。原创 2023-10-13 15:26:42 · 1870 阅读 · 1 评论 -
基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例(一)案例需求
Hbase如何解决非索引查询速度慢的问题?原因:Hbase以Rowkey作为唯一索引现象:只要查询条件不是Rowkey前缀,不走索引解决:构建二级索引思想:自己建rowkey索引表,通过走两次索引来代替全表扫描步骤问题:不同查询条件需要不同索引表,维护原表数据与索引数据同步问题解决方案一:手动管理:自己建表、自己写入数据【原表、索引表】方案二:自己开发协处理器:协处理器的开发成本非常高方案三:第三方工具:PhoenixPhoenix支持哪几种索引,各自的区别和实现原理是什么?原创 2023-10-13 10:45:41 · 1376 阅读 · 0 评论 -
5小时玩转阿里云实时计算Flink实时湖仓之代码文档
解决方案:将Task Managers 数量调整为2或者以上,也可以将TaskManager的Cpu cores设置更大一些。Task Managers 数量原来是1,由于数据量大带来的计算量大一些,需要调大一些,这里修改为2或以上。由于免费资源领取ecs服务器1核2g内存,所以运行组件较多的时候,建议重启ecs云服务器在开启服务。和RDS的MySQL的bxg.oe_order表的条数一致即可。#指定 kafka的绑定监听的地址。#指定Kafka数据的位置。#指定broker的id。查看Topic的数据。原创 2023-08-25 16:11:30 · 339 阅读 · 0 评论 -
Flinkv1.13实现金融反诈骗案例
在当今数字时代,信用卡欺诈行为越来越被重视。 罪犯可以通过诈骗或者入侵安全级别较低系统来盗窃信用卡卡号。 用盗得的信用卡进行很小额度的例如一美元或者更小额度的消费进行测试。 如果测试消费成功,那么他们就会用这个信用卡进行消费。 这个入门指导手册讲述了如何通过 Flink DataStream API 来实现一个有状态流处理程序。......原创 2022-06-30 10:40:05 · 1028 阅读 · 0 评论 -
Flink应用案例统计实现TopN的两种方式
窗口的计算处理,在实际应用中非常常见。对于一些比较复杂的需求,如果增量聚合函数无法满足,我们就需要考虑使用窗口处理函数这样的“大招”了。网站中一个非常经典的例子,就是实时统计一段时间内的热门 url。...原创 2022-06-28 16:45:17 · 1699 阅读 · 1 评论 -
2022年Flink面试题整理
文章目录1 简单介绍一下 Flink2 Flink跟Spark Streaming的区别3 Flink集群有哪些角色?各自有什么作用?4 公司怎么提交的实时任务,有多少Job Manager?5 Flink的并行度了解吗?Flink的并行度设置是怎样的?6 Flink的Checkpoint 存在哪里7 Flink的三种时间语义8 说说Flink中的窗口9 Exactly-Once的保证10 说一下Flink状态机制11 Flink 中的Watermark机制12 Flink分布式快照的原理是什么13 介绍一原创 2022-03-18 20:49:49 · 1981 阅读 · 0 评论 -
2021年最新Flink读写Kafka数据——Flink数据写入Kafka+从Kafka存入Mysql(二)
前言大家好,我是ChinaManor,直译过来就是中国码农的意思,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。这次是上篇文章的续集,最新的Flink版本大大简化了之前复杂的写法~之前的文章首先准备模拟数据://1、准备配置文件 Properties props = new Properties(); props.put("bootstrap.servers", "node1.itcast.cn:9092"); .原创 2021-07-13 22:23:59 · 1070 阅读 · 4 评论 -
Flink最后一站___Flink数据写入Kafka+从Kafka存入Mysql
前言大家好,我是ChinaManor,直译过来就是中国码农的意思,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。今天为大家带来Flink的一个综合应用案例:Flink数据写入Kafka+从Kafka存入Mysql第一部分:写数据到kafka中 public static void writeToKafka() throws Exception{ Properties props = new Properties(); prop原创 2021-07-13 18:13:15 · 899 阅读 · 4 评论 -
2021年最新最全Flink系列教程__Flink综合案例(九)
day09_综合案例今日目标Flink FileSink 落地写入到 HDFSFlinkSQL 整合 Hive数据仓库订单自动好评综合案例Flink FileSink 落地写入到 HDFS常用的文件存储格式TextFilecsvrcFileparquetorcsequenceFile支持流批一体的写入到 HDFSFile Sink 需求将流数据写入到 HDFSpackage cn.itcast.flink.filesink;import org.apach原创 2021-07-09 16:49:18 · 574 阅读 · 2 评论 -
学了1年大数据,来测测你大数据技术掌握程度?大数据综合复习之面试题15问(思维导图+问答库)
前言大家好,我是ChinaManor,直译过来就是中国码农的意思,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。时隔一年,终于把主流的大数据组件全部学完了,学成之时,便是出师之日,那为师便来考考你学的如何:问题1:Rowkey如何设计,设计规则是什么?业务原则:贴合业务,保证前缀是最常用的查询字段唯一原则:每条rowkey唯一表示一条数据组合原则:常用的查询条件组合作为Rowkey散列原则:rowkey构建不能连续长度原则:满足业务需求越短越好.原创 2021-07-09 11:03:11 · 1563 阅读 · 17 评论 -
Flink史上最简单双十一实时分析案例
文章目录引言总结引言大家好,我是ChinaManor,直译过来就是中国码农的意思,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。上期带大家用StructredStreaming做了双十一实时报表分析,没看过的朋友可以看看,这是链接:StructredStreaming+Kafka+Mysql(Spark实时计算| 天猫双十一实时报表分析)这次导师布置了一个最新任务:需求不变,用Flink完成,阿这我是菜鸡,刚学Flink,不懂阿~没办法,只能硬着头皮原创 2021-06-25 13:40:31 · 1747 阅读 · 16 评论 -
Flink工作中常用__Kafka SourceAPI
大家好,我是ChinaManor,直译过来就是中国码农的意思,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。记录一下工作中可能用的到的FlinkAPI:4.6Kafka Sourcehttps://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/connectors/index.html4.6.1API及其版本Flink 里已经提供了一些绑定的 Connector,例如 Kafka Sour..原创 2021-06-24 22:10:32 · 499 阅读 · 3 评论 -
2021年最新最全Flink系列教程__Flink高级特性和新特性(八)
day08_Flink高级特性和新特性今日目标BroadcastState状态管理Flink DataStream 双流 JoinStreaming File sink 落地File Sink 落地FlinkSQL 整合 HiveBroadcastState 状态管理broadcast state 广播变量状态应用场景关联更新的规则,获取指定的数据(给ip得到经度纬度)=> 地图 API 获取到 省市区街道位置需求实时Flink DataStream 过滤出配原创 2021-06-24 21:00:11 · 584 阅读 · 1 评论 -
大数据Flink面试考题___Flink高频考点,万字超全整理(建议)
引言大家好,我是ChinaManor,直译过来就是中国码农的意思,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。下面为模拟面试,假如面试官考你Flink相关,你该如何回答呢?1.简单介绍一下 FlinkFlink 核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数 据通信以及容错机制等功能。 基于流执行引擎,Flink 提供了诸多更高抽象层的 API 以便用户编 写分布式任务:DataSet API, 对静态数据进行批处理操作,将静态数原创 2021-06-23 23:22:10 · 4685 阅读 · 28 评论 -
2021年最新最全Flink系列教程__FlinkTable&SQL(六、七)
day06-07_FlinkSQL&Table今日目标了解Flink Table&SQL发展历史了解为什么要使用Table API & SQL掌握Flink Table&SQL进行批处理开发掌握Flink Table&SQL进行流处理开发掌握常用的开发案例Flink-SQL的常用算子Flink Table & SQLFlinkTable & SQL 是抽象级别更高的操作, 底层Flink Runtime => Strea原创 2021-06-23 16:12:30 · 549 阅读 · 0 评论 -
2021年最新最全Flink系列教程__Flink容错机制(五)
day05_Flink容错机制今日目标Flink容错机制之CheckpointFlink容错机制之重启策略存储介质StateBackendCheckpoint 配置方式状态恢复和重启策略Savepoint手动重启并恢复并行度设置Flink状态管理状态就是基于 key 或者 算子 operator 的中间结果Flink state 分为两种 : Managed state - 托管状态 , Raw state - 原始状态Managed state 分为 两种:k原创 2021-06-22 12:36:38 · 424 阅读 · 3 评论 -
2021年最新最全Flink系列教程__Flink高级API(四)
day04_Flink高级API今日目标Flink的四大基石Flink窗口Window操作Flink时间 - TimeFlink水印 - Watermark机制Flink的state状态管理-keyed state 和 operator stateFlink的四大基石Checkpoint - 检查点, 分布式一致性,解决数据丢失,故障恢复数据, 存储的是全局的状态, 持久化HDFS分布式文件系统中State - 状态,分为Managed state(托管状态) 和 Rawed st原创 2021-06-22 12:34:47 · 699 阅读 · 0 评论 -
2021年最新最全Flink系列教程__Flink高级API(三)
day03_Flink高级API今日目标Flink的四大基石Flink窗口Window操作Flink时间TimeFlink水印Watermark机制Flink的state状态管理-keyed state 和 operator stateFlink的四大基石Checkpoint 分布式一致性,解决数据丢失,故障恢复数据State 状态,分为Keyed State ,Operator State; 数据结构的角度来说 ValueState、ListState、MapState,Broad原创 2021-06-21 15:53:58 · 851 阅读 · 0 评论 -
2021年最新最全Flink系列教程_Flink原理初探和流批一体API(二.五)
day02-03_流批一体API今日目标流处理原理初探流处理概念(理解)程序结构之数据源Source(掌握)程序结构之数据转换Transformation(掌握)程序结构之数据落地Sink(掌握)Flink连接器Connectors(理解)流处理原理初探Flink的角色分配JobMaster 老大, 主要负责 集群的管理, 故障的恢复, checkpoint 检查点设置taskmanager worker 小弟, 具体负责任务的执行节点client原创 2021-06-21 15:50:51 · 684 阅读 · 0 评论 -
2021年最新最全Flink系列教程_Flink原理初探和流批一体API(二)
day02_流批一体API今日目标流处理概念(理解)程序结构之数据源Source(掌握)程序结构之数据转换Transformation(掌握)程序结构之数据落地Sink(掌握)Flink连接器Connectors(理解)流处理概念数据的时效性强调的是数据的处理时效网站的数据访问,被爬虫爬取流处理和批处理流处理是无界的窗口操作来划分数据的边界进行计算批处理是有界的在Flink1.12时支持流批一体 既支持流处理也支持批处理。编程模型sou原创 2021-06-21 15:43:03 · 1174 阅读 · 0 评论 -
2021年最新最全Flink系列教程_Flink快速入门(概述,安装部署)(一)(JianYi收藏)
Flink的发展史2009年柏林工业大学一个研究项目2014年被贡献给 apache 成为顶级项目原创 2021-06-21 15:32:13 · 4469 阅读 · 16 评论 -
01-Flink阶段内容介绍
Hadoop阶段内容介绍在整个学习阶段的位置大数据体验基础班linux mysql kettle superset大数据就业班java 基础linux shell 高级hadoop阶段 zookeeper hdfs yarn mapreduce hive在线教育项目 离线项目scalaspark 内存计算框架物流项目flink 实时流处理计算引擎实时项目上证指数项目(\ 车联网)为什么要学习Flink离线批处理, T+1 离线计算 (天、小时),时间延时比较高原创 2021-06-21 11:17:28 · 440 阅读 · 0 评论