
Apache Flink
文章平均质量分 92
大数据羊说
这个作者很懒,什么都没留下…
展开
-
我是 Flink,现在 “背” 感压力
为什么你的Flink运行开始减慢了?为什么你试遍Flink参数还是无法解决?Flink背压常常发生在生产事故中,切记不要掉以轻心。不知为何,最近的我开始走下坡路了。。。1 故事的开始此刻,我抬头看了一眼坐在对面的这个家伙: 格子衫、中等身材,略高的鼻梁下顶着一副黑框眼镜,微眯的目光透出丝丝倦意,正一眨不眨地盯着我看。我心里直犯嘀咕: 我又有什么好看的呢?不过是A君你用来换取面包、汽车的工具罢了。虽然陪伴了五年的时光,想来也就是如此~说到这,忘了自我介绍了。我叫Flink,当然,我还是喜欢.转载 2022-02-22 22:12:11 · 597 阅读 · 1 评论 -
从盘古开天辟地说起为什么 Flink CP 能实现精确一次?(下)
为什么我要把这段话放在最前面呢?因为博主有了大发现,博主在总结学习的过程中,总结了除了 Flink CP、Chandy-Lamport 全局一致性快照算法之外的一种 通用全局一致性快照算法!!!。这套 通用算法 包含 Chandy-Lamport 算法 ≈ Flink 非对齐 CP 算法 包含 Flink 对齐 CP 算法。可能这一套 通用算法 之前已经有人提过了,但是博主是自己在总结 Flink CP、Chandy-Lamport 算法的过程中,逆推总结出来的,并没有借助外力!!!1.前言对于很多原创 2022-02-22 22:09:45 · 1077 阅读 · 0 评论 -
从盘古开天辟地说起为什么 Flink CP 能实现精确一次?(中)
为什么我要把这段话放在最前面呢?因为博主有了大发现,博主在总结学习的过程中,总结了除了 Flink CP、Chandy-Lamport 全局一致性快照算法之外的一种 通用全局一致性快照算法!!!。这套 通用算法 包含 Chandy-Lamport 算法 ≈ Flink 非对齐 CP 算法 包含 Flink 对齐 CP 算法。可能这一套 通用算法 之前已经有人提过了,但是博主是自己在总结 Flink CP、Chandy-Lamport 算法的过程中,逆推总结出来的,并没有借助外力!!!1.前言对于很多原创 2022-02-20 14:46:02 · 1479 阅读 · 0 评论 -
从盘古开天辟地说起为什么 Flink CP 能实现精确一次?(上)
1.前言对于很多做离线或者实时数仓的小伙伴来说,我先问几个问题,看看小伙伴萌能回答上来吗?⭐ 你知道状态是什么吗?在离线数据开发的经历中,你碰到过状态的概念吗?⭐ 为什么离线数仓不需要状态,实时数据开发中老是提到状态的概念?⭐ Flink 中的状态、状态后端、全局一致性快照(Checkpoint\Savepoint) 的作用都是什么,这三个概念的关联又是什么?⭐ Flink 是通过什么机制来做 Checkpoint 的?为什么这套机制能够做到精确一次呢?⭐ Flink Che原创 2022-02-20 14:42:20 · 977 阅读 · 0 评论 -
71 篇 Flink 实战及原理解析文章(面试必备)
去重系列一、Flink去重第一弹:MapState去重二、Flink去重第二弹:SQL方式三、Flink去重第三弹:HyperLogLog去重四、关于hyperloglog去重优化五、关于bitmap的使用总结六、Flink去重第四弹: bitmap精确去重七、编码方式实现Split Distinct Aggregation功能实战系列目录:一、热点流量优化二、分流三、自定义RetractStreamTableSink四、自定义UpsertStreamTableSink五、Flin转载 2022-02-14 20:50:21 · 1921 阅读 · 0 评论 -
flink sql 知其所以然(十九):Table 与 DataStream 的转转转(附源码)
1.序篇源码公众号后台回复1.13.2 table datastream获取。废话不多说,咱们先直接上本文的目录和结论,小伙伴可以先看结论快速了解博主期望本文能给小伙伴们带来什么帮助:背景及应用场景介绍:博主期望你能了解到,Flink 支持了 SQL 和 Table API 中的 Table 与 DataStream 互转的接口。通过这种互转的方式,我们就可以将一些自定义的数据源(DataStream)创建为 SQL 表,也可以将 SQL 执行结果转换为 DataStream 然后后续去完成一些在原创 2022-02-13 22:54:52 · 1729 阅读 · 0 评论 -
flink sql 知其所以然(十八):在 flink 中还能使用 hive udf?附源码
1.序篇源码公众号后台回复1.13.2 sql hive udf获取。废话不多说,咱们先直接上本文的目录和结论,小伙伴可以先看结论快速了解博主期望本文能给小伙伴们带来什么帮助:背景及应用场景介绍:博主期望你能了解到,其实很多场景下实时数仓的建设都是随着离线数仓而建设的(相同的逻辑在实时数仓中重新实现一遍),因此能够在 flink sql 中复用 hive udf 是能够大大提高人效的。flink 扩展支持 hive 内置 udf:flink sql 提供了扩展 udf 的能力,即 modul原创 2022-02-13 22:52:53 · 1861 阅读 · 0 评论 -
flink sql 知其所以然(十七):flink sql 开发利器之 Zeppelin
1.序篇上节介绍了 flink sql 的企业级开发利器 Dlink。本节就来介绍下 Apache Zeppelin。本节主要介绍一下博主在本地部署 Apache Zeppelin 的过程以及感受。先说下安装感受,Apache Zeppelin 安装起来真的是非常的方便!!!几步就完成了。2.Apache Zeppelin 平台效果具体功能如下图所示:sql 开发sql 开发3.安装部署篇安装真的很简单。可以参考 jeff 大佬的安装教程,也可以参考博主本文的安装教程。jeff原创 2022-02-13 22:48:39 · 1191 阅读 · 0 评论 -
flink sql 知其所以然(十六):flink sql 开发企业级利器之 Dlink
1.序篇博主这个系列都是讲 flink sql 相关的实践的。讲到这个章节,其实挺多常用的 flink sql 语法及实战案例都已经讲了。那么原理讲了,得在自己家公司把 flink sql 这等好东西用起来啊。搞大数据开发的同学基本都知道在 HUE 上面写 hive sql 贼爽。那么有没有写 flink sql 的企业级的 web IDE 推荐的呢?经过博主调研之后,发现有两款非常优秀的利器:Apache ZeppelinDlink为啥先介绍 Dlink 呢?因为博主和其开发原创 2022-02-13 22:47:59 · 2069 阅读 · 1 评论 -
Flink 代码这么写,窗口能触发才怪(不良编程习惯)
1.序篇-先说结论本文主要记录小伙伴萌在使用 DataStream API 实现事件时间窗口类应用时会遇到的窗口不触发问题的坑以及其排查过程。博主希望你在看完本文后一定要养成这个编程习惯:使用 DataStream API 实现 Flink 任务时,Watermark Assigner 能靠近 Source 节点就靠近 Source 节点,尽量前置。要想问为啥,接着往下看!!!我从以下几个章节说明上述的问题以及为什么这样建议,希望能抛砖引玉,带给大家一些启发。⭐ 踩坑场景篇-这个坑是啥样的原创 2022-02-13 13:56:56 · 1373 阅读 · 0 评论 -
晋升季,如何减少 50%+ 的答辩材料准备时间、调整心态(个人经验总结)
1.前言陪伴了小伙伴萌这么久,写的都是一些技术干货,还没有聊过工作上成长的经验。那么为什么突然要聊这么一个话题呢,有两个原因:最近博主晋升了一次,在这个过程中,准备答辩内容及材料是非常耗时耗力的,相信小伙伴萌不花上一个月、不改个 3 遍以上的答辩材料都是 NB 的了,搞完一次答辩褪一层皮(大概率是博主比较菜,所以才花了这么长时间)。博主最初准备时,在网上也各种搜索相关的经验贴,但是相关的帖子没那么多,而且不成体系。因此萌生了分享一下晋升答辩准备过程的想法,有一些方法的沉淀的话,后续对自原创 2022-02-12 22:23:49 · 537 阅读 · 0 评论 -
18w 字 Flink SQL 成神之路手册,横空出世
与大家一起学习大数据开发、面试、框架、实时离线计算、数仓保障 Flink/ClickHouse/Kafka/Spark/Hadoop 技术干货、资料下载、源码解读等 ...原创 2022-02-05 17:38:53 · 2273 阅读 · 0 评论 -
(上)史上最全 Flink SQL 成神之路(全文 18 万字、138 个案例、42 张图)
1.前言看了那么多的技术文,你能明白作者想让你在读完文章后学到什么吗?大数据羊说__的文章会让你明白博主会阐明博主期望本文能给小伙伴们带来什么帮助,让小伙伴萌能直观明白博主的心思博主会以实际的应用场景和案例入手,不只是知识点的简单堆砌博主会把重要的知识点的原理进行剖析,让小伙伴萌做到深入浅出gzh:大数据羊说与大家一起学习大数据开发、面试、框架、实时离线计算、数仓保障 Flink/ClickHouse/Kafka/Spark/Hadoop 技术干货、资料下载、源码解读等52篇原创 2022-02-04 11:57:17 · 3509 阅读 · 1 评论 -
flink sql 知其所以然(十五):改了改源码,实现了个 batch lookup join(附源码)
看了那么多的技术文,你能明白作者想让你在读完文章后学到什么吗?大数据羊说的文章会让你明白原创 2021-12-05 23:08:39 · 2854 阅读 · 1 评论 -
flink sql 知其所以然(十四):维表 join 的性能优化之路(上)附源码
看了那么多的技术文,你能明白作者想让你在读完文章后学到什么吗?大数据羊说的文章会让你明白 大数据羊说 用数据提升美好事物发生的概率~ 43篇原创内容原创 2021-12-01 10:03:47 · 3065 阅读 · 5 评论 -
flink sql 知其所以然(十三):流 join 很难嘛?(下)
用数据提升美好事物发生的概率~原创 2021-12-01 09:58:42 · 2426 阅读 · 1 评论 -
flink sql 知其所以然(十二):流 join 很难嘛?(上)
1.序篇看了那么多的技术文,你能明白作者想让你在读完文章后学到什么吗?大数据羊说的文章会让你明白1. 博主会阐明博主期望本文能给小伙伴们带来什么帮助,让小伙伴萌能直观明白博主的心思2. 博主会以实际的应用场景和案例入手,不只是知识点的简单堆砌3. 博主会把重要的知识点的原理进行剖析,让小伙伴萌做到深入浅出进入正文。源码公众号后台回复1.13.2 sql join 的奇妙解析之路获取。下面即是文章目录,也对应到本文的结论,小伙伴可以先看结论快速了解本文能给你带来什么帮助:背景及应用场景介绍:join 作为离线原创 2021-11-28 20:57:47 · 1423 阅读 · 0 评论 -
flink sql 知其所以然(十一):去重不仅仅有 count distinct 还有强大的 deduplication
想啥呢,小宝贝,还不三连???(关注 + 点赞 + 再看),对博主的肯定,会督促博主持续的输出更多的优质实战内容!!!1.序篇源码公众号后台回复1.13.2 deduplication 的奇妙解析之路获取。下面即是文章目录,也对应到了本文的结论,小伙伴可以先看结论快速了解博主期望本文能给小伙伴们带来什么帮助:背景及应用场景介绍:博主期望你了解到,flink sql 的 deduplication 其实就是 row_number = 1,所以它可以在去重的同时,还能保留原始字段数据来一原创 2021-11-25 09:29:29 · 1241 阅读 · 0 评论 -
flink sql 知其所以然(十):大家都用 cumulate window 计算累计指标啦
想啥呢,小宝贝,还不三连???(关注 + 点赞 + 再看),对博主的肯定,会督促博主持续的输出更多的优质实战内容!!!1.序篇源码公众号后台回复1.13.2 cumulate window 的奇妙解析之路获取。此节就是窗口聚合章节的第三篇,上节介绍了 1.13 window tvf tumble window 实现,本节主要介绍 1.13. window tvf 的一个重磅更新,即 cumulate window。本节从以下几个章节给大家详细介绍 cumulate window 的能原创 2021-11-21 17:51:30 · 3985 阅读 · 2 评论 -
当我们在做流批一体时,我们在做什么?
1.前言本文主要是分享目前博主理解的流批一体产生的背景,想解决的问题,以及后续可能实现的思路,并以几个案例进行介绍。抛砖引玉,让大家不止停留在做流批一体这件事,而是能更深入思考背后的原因。2.背景在介绍流批一体之前,首先看看目前流和批领域常用的引擎:批任务:常用 Hive、Spark。流任务:常用 Flink。Spark Streaming 与 Storm 使用率目前在流式场景会小于 Flink。3.什么问题导致产生了流批一体的概念呢?一个前提:在生产场景中,当同一个口径的指标分别用流任务产出了实时数据,用原创 2021-11-18 21:31:11 · 941 阅读 · 0 评论 -
flink sql 知其所以然(八):flink sql tumble window 的奇妙解析之路
感谢您的小爱心(关注 + 点赞 + 再看),对博主的肯定,会督促博主持续的输出更多的优质实战内容!!!1.序篇-本文结构 大数据羊说 用数据提升美好事物发生的概率~原创 2021-09-12 12:05:09 · 3035 阅读 · 1 评论 -
flink sql 知其所以然(七):不会连最适合 flink sql 的 ETL 和 group agg 场景都没见过吧?
感谢您的小爱心(关注 + 点赞 + 再看),对博主的肯定,会督促博主持续的输出更多的优质实战内容!!!1.序篇-本文结构前面的章节铺垫了那么多,终于在本节走入一条 query 了。针对 datastream api 大家都比较熟悉了,还是那句话,在 datastream 中,你写的代码逻辑是什么样的,它最终的执行方式就是什么样的。但是对于 flink sql 的执行过程,大家还是不熟悉的。因此本文通过以下章节使用 ETL,group agg(sum,count等)简单聚合类 quer原创 2021-09-05 23:20:57 · 930 阅读 · 0 评论 -
flink sql 知其所以然(六)| flink sql 约会 calcite(看这篇就够了)
感谢您的小爱心(关注 + 点赞 + 再看),对博主的肯定,会督促博主持续的输出更多的优质实战内容!!!1.序篇-本文结构 大数据羊说 用数据提升美好事物发生的概率~原创 2021-09-04 10:42:33 · 1475 阅读 · 1 评论 -
flink sql 知其所以然(五)| 自定义 protobuf format
感谢您的关注 + 点赞 + 再看,对博主的肯定,会督促博主持续的输出更多的优质实战内容!!!1.序篇-本文结构 大数据羊说 用数据提升美好事物发生的概率~原创 2021-08-25 21:20:59 · 1426 阅读 · 0 评论 -
踩坑记| flink state 序列化 java enum 竟然岔劈了
❝感谢您的「关注 + 点赞 + 再看」,对博主的肯定,会督促博主持续的输出更多的优质实战内容!!!❞1.序篇-先说结论 大数据羊说 用数据提升美好事物发生的概率~原创 2021-08-24 23:38:17 · 293 阅读 · 0 评论 -
flink sql 知其所以然(二)| 自定义 redis 数据维表(附源码)
感谢您的关注 + 点赞 + 再看,对博主的肯定,会督促博主持续的输出更多的优质实战内容!!!1.序篇-本文结构背景篇-为啥需要 redis 维表目标篇-做 redis 维表的预期效果是什么难点剖析篇-此框架建设的难点、目前有哪些实现维表实现篇-维表实现的过程总结与展望篇本文主要介绍了 flink sql redis 维表的实现过程。如果想在本地测试下:原创 2021-08-22 12:23:40 · 976 阅读 · 1 评论 -
flink sql 知其所以然(四)| sql api 类型系统
感谢您的关注 + 点赞 + 再看,对博主的肯定,会督促博主持续的输出更多的优质实战内容!!!1.序篇-先说结论 大数据羊说 用数据提升美好事物发生的概率~原创 2021-08-22 12:12:22 · 613 阅读 · 0 评论 -
flink sql 知其所以然(三)| 自定义 redis 数据汇表(附源码)
感谢您的关注 + 点赞 + 再看,对博主的肯定,会督促博主持续的输出更多的优质实战内容!!!1.序篇-本文结构背景篇-为啥需要 redis 数据汇表目标篇-redis 数据汇表预期效果难点剖析篇-此框架建设的难点、目前有哪些实现维表实现篇-实现的过程总结与展望篇本文主要介绍了 flink sql redis 数据汇表的实现过程。原创 2021-08-17 00:26:00 · 607 阅读 · 0 评论 -
flink sql 知其所以然(一)| source\sink 原理
感谢您的关注 + 点赞 + 再看,对博主的肯定,会督促博主持续的输出更多的优质实战内容!!!1.序篇-本文结构本文从以下五个小节介绍 flink sql source\sink\format 的概念、原理。背景篇-关于 sql定义篇-sql source、sink实战篇-sql source、sink 的用法原理剖析篇-sql source、sink 是怎么跑起来的总结与展望篇2.背景篇-关于 sql关于 flink sql 的定位。先聊聊使用 sql 的原因,总结来说就是一切从简。原创 2021-08-15 20:44:11 · 1861 阅读 · 0 评论 -
生产实践 | Flink + 直播(二)| 如何建设实时公共画像维表?
生产实践 | Flink + 直播(二)| 如何建设实时公共画像维表?❝本系列每篇文章都是从一些实际生产实践需求出发,解决一些生产实践中的问题,抛砖引玉,以帮助小伙伴们解决一些实际生产问题。本篇文章主要介绍直播间画像实时维表建设的整个过程,如果对小伙伴有帮助的话,欢迎点赞 + 再看~❞技术架构回顾上一节的「技术架构」图。技术架构整个架构相对来说是比较好理解的。从数据源到数据处理以及最后到数据汇部分。但是大家的疑惑点可能就集中在三个维表的建设上,包含「主播用户画像维表,观.原创 2020-11-08 20:07:39 · 366 阅读 · 0 评论 -
生产实践 | Flink + 直播 (一)| 需求和架构篇
生产实践 | 基于 Flink 的直播实时数据建设 (一)| 需求和架构篇❝本系列每篇文章都是从一些实际生产实践需求出发,解决一些生产实践中的问题,抛砖引玉,以帮助小伙伴们解决一些实际生产问题。相信大家或多或少都观看过直播,那大家有没有想过,如果自己负责建设公司内整体直播实时数据,会怎样去建设呢?本系列文章主要介绍直播实时数据建设的整个过程,如果对小伙伴有帮助的话,欢迎点赞 + 再看~❞首先思考几个问题 「WHAT:相信大家或多或少都观看过直播,甚至自己就是一名主播或负责的业务就是直播相关原创 2020-11-08 19:40:56 · 642 阅读 · 5 评论 -
踩坑记 | Flink 天级别窗口中存在的时区问题
踩坑记 | Flink 天级别窗口中存在的时区问题本系列每篇文章都是从一些实际的 case 出发,分析一些生产环境中经常会遇到的问题,抛砖引玉,以帮助小伙伴们解决一些实际问题。本文介绍 Flink 时间以及时区问题,分析了在天级别的窗口时会遇到的时区问题,如果对小伙伴有帮助的话,欢迎点赞 + 再看~本文主要分为两部分:第一部分(第 1 - 3 节)的分析主要针对 flink,分析了 flink 天级别窗口的中存在的时区问题以及解决方案。第二部分(第 4 节)的分析可以作为所有时区问题的分析思路,原创 2020-10-17 21:16:47 · 1088 阅读 · 1 评论 -
Tips | Flink 使用 union 代替 join、cogroup
Tips | Flink 使用 union 代替 join、cogroup本系列每篇文章都比较短小,不定期更新,从一些实际的 case 出发抛砖引玉,提高小伙伴的姿♂势水平。本文介绍在满足原有需求、实现原有逻辑的场景下,在 Flink 中使用 union 代替 cogroup(或者join) ,简化任务逻辑,提升任务性能的方法,阅读时长大概一分钟,话不多说,直接进入正文!需求场景分析需求场景需求诱诱诱来了。。。数据产品妹妹想要统计单个短视频粒度的点赞,播放,评论,分享,举报五类实时指标,并且汇总原创 2020-10-04 20:36:09 · 587 阅读 · 0 评论 -
踩坑记 | Flink 事件时间语义下数据乱序丢数踩坑
踩坑记 | Flink 事件时间语义下数据乱序丢数踩坑公众号(mangodata)里回复 flink 关键字可以获取 flink 的学习资料以及视频。本文详细介绍了在上游使用处理时间语义的 flink 任务出现故障后,重启消费大量积压在上游的数据并产出至下游数据乱序特别严重时,下游 flink 任务使用事件时间语义时遇到的大量丢数问题以及相关的解决方案。本文分为以下几个部分:1.本次踩坑的应用场景2.应用场景中发生的丢数故障分析3.待修复的故障点4.丢数故障解决方案及原理5.总结应原创 2020-09-26 15:36:55 · 1043 阅读 · 0 评论 -
Tips | Flink sink schema 字段设计小技巧
Tips | Flink sink schema 字段设计小技巧公众号(mangodata)里回复 flink 关键字可以获取 flink 的学习资料以及视频。本系列每篇文章都比较短小,不定期更新,从一些实际的 case 出发抛砖引玉,提高小伙伴的姿♂势水平。本文介绍 Flink sink schema 字段设计小技巧,阅读时长大概 2 分钟,话不多说,直接进入正文!sink schema 中添加 version 版本字段如 title,直接上实践案例和使用方式。实践案例及使用方式非故障场原创 2020-09-26 15:28:15 · 502 阅读 · 0 评论 -
生产实践 | 基于 Flink 的短视频生产消费监控
本文详细介绍了实时监控类指标的数据流转链路以及技术方案,大多数的实时监控类指标都可按照本文中的几种方案实现。短视频生产消费监控短视频带来了全新的传播场域和节目形态,小屏幕、快节奏成为行业潮流的同时,也催生了新的用户消费习惯,为创作者和商户带来收益。而多元化的短视频也可以为品牌方提供营销机遇。其中对于垂类生态短视频的生产消费热点的监控分析目前成为了实时数据处理很常见的一个应用场景,比如对某个圈定的垂类生态下的视频生产或者视频消费进行监控,对热点视频生成对应的优化推荐策略,促进热点视频的生产或者.原创 2020-09-06 20:51:01 · 297 阅读 · 0 评论 -
Apache Flink: Return type of function could not be determined automatically due to type erasure
Apache Flink: Return type of function could not be determined automaticallydue to type erasure解决方案:https://yangyichao-mango.github.io/2019/10/15/apache-flink-study-4-datastream-api/#%E5%8F%AF%E8%83...原创 2019-10-16 09:38:45 · 732 阅读 · 0 评论