
Flink
文章平均质量分 77
进击吧大数据
大数据技术和数仓实操;大数据技术架构手册编制者
展开
-
Flink从入门到放弃(九)-万字讲解CDC设计(1)
一、准备工作在开始研究Flink CDC原理之前(本篇先以CDC1.0版本介绍,后续会延伸介绍2.0的功能),需要做以下几个工作(本篇以Flink1.12环境开始着手)打开Flink官网(查看Connector模块介绍)打开Github,下载源码(目前不能放链接,读者们自行在github上搜索)apache-flinkflink-cdc-connectorsdebezium开始入坑二、设计提议2.1、设计动机CDC(Change data Capture,捕捉变更数据)在原创 2021-12-25 22:12:37 · 4243 阅读 · 1 评论 -
Flink从入门到放弃(十二)-企业实战之事件循环驱动型场景(二)
上文Flink从入门到放弃(十二)-企业实战之事件驱动型场景踩坑(一)为大家介绍了Flink基于事件驱动场景下的渠道流量分析实时需求以及遇到的坑。本文继续讲解基于事件驱动场景来讲解下关于响应时效、服务质量类的需求方案设计以及遇到的坑 (关于Flink主题的所有文章已整理同步到在线腾讯文档,本文中涉及到其他知识点都可在文档中查看,后台回复【文档】获取链接)。需求背景对于响应时效、服务质量类的需求是适用于各种业务场景下的。这里举一个实际的例子:我们在一些外卖平台上选取商品支付下单,然后进入商家接单环节,这原创 2021-12-25 22:06:59 · 961 阅读 · 0 评论 -
Flink从入门到放弃(十二)-企业实战之事件驱动型场景踩坑(一)
本文基于事件驱动场景来讲解下在企业中的实际应用以及所遇到的坑。(关于Flink主题的所有文章已整理同步到在线腾讯文档,本文中涉及到其他知识点都可在文档中查看,后台回复【文档】获取链接)。需求背景某日,小明早上10点打卡到公司,先来一杯热水润润嗓子,打开音乐播放器带上心爱的降噪耳机看看新闻,静静等待11点半吃午饭。突然消息框亮了起来,这个时候小明心想要么来需求了,要么数据就有问题了。这个时候运营A部的同学发消息过来说想要分析下每个渠道当日的实时流量情况,以看板的方式提供就行。 小明看到这种需求,心想这还不简单原创 2021-10-24 15:25:20 · 2993 阅读 · 1 评论 -
Flink系列专题文章汇总
关注“进击吧大数据”,后台回复进群即可查阅原创 2021-09-19 23:23:45 · 150 阅读 · 0 评论 -
Flink从入门到放弃之入门篇(十一)-Flink History Server(附源码经验分享)
背景在我们实际生产开发中,Flink作业通常以per-job的模式提交到yarn集群上运行。当作业结束或因异常退出后,此时无法从yarn web ui上查看具体的日志信息来定位异常问题;如果yarn端未开启日志聚合,yarn logs命令就无法使用了,那么我们也就无法定位问题了。History Server简介当相应的Flink Cluster集群down掉后,Flink提供了一个History Server服务可以查询已归档的job,同时也对外提供了接口供用户进行封装获取数据。默认情况下,该原创 2021-02-01 22:58:49 · 1524 阅读 · 1 评论 -
Flink从入门到放弃之入门篇(五)-关于乱序那点事
引入通过对上篇Flink从入门到放弃之入门篇(四)-剖析窗口生命周期的讲解,我们对flink窗口的整个生命周期有了一个大致的了解,并掌握了窗口的作用。这里给出一个常见的生产案例,如统计每分钟的点击用户数,技术实现上一般是flink对接kafka(假设这里我们保证全局有序的),窗口长度为1分钟。如下图示例:图中的结果可以说是精准的,不过这里有一个前提条件就是消费kafka时消息是全局有序的。但是一般实际环境下很难保证全局有序,那么就会出现下图的情况:可能由于网络延迟或者系统故障等一些因素导致20:原创 2021-02-01 22:56:36 · 634 阅读 · 0 评论 -
Flink从入门到放弃之入门篇(四)-剖析窗口生命周期
一、应用场景Apache Flink可以说是目前大数据实时流处理最流行的技术,功能非常强大,支持开发和运行多种不同类型的应用程序。主要特性包括:批流一体化、状态管理、事件时间支持以及精准一次的状态一致性保障等。目前Flink的应用场景整体概括下来包含以下几点: 事件驱动型应用 数据分析(OLAP)型应用 数据管道/ETL类型应用 接下来将针对这三类应用做一个简单的概述,希望读者能有一个大概的了解。1.1 事件驱动型应用概念:事件驱动是在计算存储分离的传统应用基础上进原创 2021-02-01 22:54:26 · 1147 阅读 · 1 评论 -
Flink从入门到放弃之入门篇(三)-2w字深度剖析Transformation
转换算子一个流的转换操作将会应用在一个或者多个流上面,这些转换操作将流转换成一个或者多个输出流,将这些转换算子组合在一起来构建一个数据流图。大部分的数据流转换操作都是基于用户自定义函数udf。udf函数打包了一些业务逻辑并定义了输入流的元素如何转换成输出流的元素。像MapFunction这样的函数,将会被定义为类,这个类实现了Flink针对特定的转换操作暴露出来的接口。DataStream API针对大多数数据转换操作提供了转换算子,这里将转换算子分为四类: 基本转换算子:将会作用在数据流中的每一原创 2021-02-01 22:51:50 · 329 阅读 · 0 评论 -
学会Flink看完这一篇就够了
Flink系列专题近两年flink技术成为了大数据行业的主流,同时也成为了各大公司招聘的首选要求。笔者当初也是从零开始学习,网上找各种视频,看各种博客去学习,但一直没有总结整理成文章。我相信对于很多读者来说,学习一门新的技术,无非有以下几种途径:自学1.1 看视频(白嫖/自费)优点:入门快缺点:时间周期长,所学知识虽广,但不深入;一般都是比较常用的技术点1.2 看官网/博客优点:借鉴大佬总结的文章,或者所遇到的坑所沉淀出的经验缺点:知识点过于零碎,且官网大多是英文,对于阅读差的读者不够友好原创 2020-12-05 14:32:22 · 771 阅读 · 0 评论 -
资料免费领取-Flink/Spark/Java/Python/Redis/Kafka/CK/ZK/ES/Flume
首先这是一篇资源福利篇,相信会有很多读者和笔者一样,学习一门技术,至少会有20%的时候来寻找好的学习文章或者书籍。之前在后台提供了相关技术的书籍和视频,但经常有读者后台私信反馈链接失效的问题。由于笔者所有的资源均在某网盘中存放,迁移成本较大,所有这里对获取方式进行了改变,流程可能会有所繁琐,但尽可能节省大家的时间,如还是遇到失效问题,请后台私信进行处理解决。这里先给大家汇总下相关资料,如感兴趣,请看文章结尾的获取方式自行领取。Java篇这里提供一套比较全面的Java视频,从基础到完整的项目实例,对于初原创 2020-11-01 19:16:33 · 922 阅读 · 0 评论 -
flink从入门到放弃之入门篇(二)-Source操作
1.Flink预定义Source操作在flink中,source主要负责数据的读取。flink预定义的source中又分为「并行source(主要实现ParallelSourceFunction接口)「和」非并行source(主要实现了SourceFunction接口)」附上官网相关的说明:you can always write your own custom sources by implementing theSourceFunctionfor non-parallel sour..原创 2020-10-21 13:29:49 · 1898 阅读 · 4 评论 -
Flink从入门到放弃之入门篇(一)-Flink快速上手
1.Flink介绍1.1 Flink简介Apache Flink是一个面向分布式数据流处理和批量数据 处理的开源计算平台,可以对有限数据流和无限数据流进行有状态计算,即提供支持流处理和批处理两种类型的功能1.2 Flink特点 批流统一 支持高吞吐、低延迟‘高性能的流处理 支持有状态计算的Exactly-Once语义 支持高度灵活的窗口操作,如基于事件时间,基于会话时间,基于处理时间等。 支持Backpressure功能的持续流模型 支持原创 2020-10-21 08:03:30 · 1319 阅读 · 3 评论