
Flink从入门到精通100篇
文章平均质量分 88
多一门技术就减少你失业的风险
优惠券已抵扣
余额抵扣
还需支付
¥29.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
普通网友
这个作者很懒,什么都没留下…
展开
-
Flink从入门到精通100篇(二十四)-对Flink SQL Client 源码做深度解析
前言本文基于 Flink 1.12-SNAPSHOT,使用sql client命令行提交insert语句进行整个流程的分析。sql-client.shembedded--update"INSERTINTOuser_log_sink2SELECT*FROMuser_log"Initialize the environment主类:org.apache.flink.table.client.SqlClient#mainpublicstaticvoidmain(S...原创 2022-01-03 06:00:00 · 1195 阅读 · 0 评论 -
Flink从入门到精通100篇(二十三)-Flink实战应用案例:如何清理过期的 Checkpoint 目录?
Flink Checkpoint 目录的清除策略 生产环境应该选择哪种清除策略 生产环境必须定期脚本清理 Checkpoint 和 Savepoint 目录 RocksDB 增量 Checkpoint 实现原理 如何合理地删除 Ch.原创 2021-12-11 06:00:00 · 1308 阅读 · 0 评论 -
Flink从入门到精通100篇(二十二)- Flink应用实战案例:如何实现网络流控与反压机制
Flink 流处理为什么需要网络流控? Flink V1.5 版之前网络流控介绍 Flink V1.5 版之前的反压策略存在的问题 Credit的反压策略实现原理,Credit是如何解决 Flink 1.5 之前的问题? 对比spark,都说flink延迟低,来一条处理一条,真是这样吗?其实Flink内部也有Buffer机制,Buffer机制具体是如何实现的? Flink 如何在吞吐量和延迟之间做权衡? Flink原创 2021-12-10 06:00:00 · 1145 阅读 · 0 评论 -
深入解读 Flink SQL 1.13版本新功能
一、Flink SQL 1.13 概览Flink 1.13 是一个社区大版本,解决的 issue 在 1000 个以上,通过上图我们可以看到,解决的问题大部分是关于 Table/SQL 模块,一共 400 多个 issue 占了总体的 37% 左右。这些 issue 主要围绕了 5 个 FLIP 展开,在本文中我们也会根据这 5 个方面进行介绍,它们分别是:下面我们对这些 FLIP 进行详细解读。二、 核心 feature 解读1. FLIP-145:支持原创 2021-09-21 10:56:42 · 1066 阅读 · 0 评论 -
spark从入门到精通spark内存管理详解- 堆内&堆外内存管理
导读:Spark作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解Spark内存管理的基本原理,有助于更好地开发Spark应用程序和进行性能调优。本文将详细介绍两部分内容,第一部分介绍Spark堆内和堆外内存的规划,主要包含堆内内存、堆外内存以及内存管理接口等方面;第二部重点介绍Spark内存空间的分配,主要包含静态内存管理与统一内存管理的机制。前言本文旨在梳理出Spark内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于Spar原创 2021-09-13 09:02:21 · 1154 阅读 · 0 评论 -
Flink从入门到精通100篇(二十一)-万字长文详解 Flink 中的 CopyOnWriteStateTable
现如今想阅读 HashMap 源码实际上比较简单,因为网上一大堆博客去分析 HashMap 和 ConcurrentHashMap。而本文是全网首篇详细分析 CopyOnWriteStateTable 源码的博客,阅读复杂集合类源码的过程是相当有挑战的,笔者在刚开始阅读也遇到很多疑问,最后一一解决了。本文有一万两千多字加不少的配图,实属不易。详细阅读完本文,无论是针对面试还是开阔视野一定会对大家有帮助的。感觉有帮助的同学文末点个在看呗,如果能转发那更好了。❝声明:笔者的源码分析都是基于 flink-1原创 2021-07-28 07:07:47 · 1162 阅读 · 0 评论 -
Flink从入门到精通100篇(二十)-跨境电商 Shopee 的实时数仓之路
导读:本文讲述 Flink 在 Shopee 新加坡数据组 ( Shopee Singapore Data Team ) 的应用实践,主要内容包括: 实时数仓建设背景 Flink 在实时数据数仓建设中结合 Druid、Hive 的应用场景 实时任务监控 Streaming SQL 平台化 Streaming Job 管理 未来规划优化方向 建设背景Shopee 是东南亚与台湾领航电商平台,覆盖新加坡、马来西亚、菲律宾、台湾、印...原创 2021-06-13 09:00:27 · 1259 阅读 · 4 评论 -
为什么程序员需要关心顺序一致性(Sequential Consistency)而不是Cache一致性(Cache Coherence)
本文所讨论的计算机模型是Shared Memory Multiprocessor,即我们现在常见的共享内存的多核CPU。本文适合的对象是想用C++或者Java进行多线程编程的程序员。本文主要包括对Sequential Consistency和Cache Coherence的概念性介绍并给出了一些相关例子,目的是帮助程序员明白为什么需要在并行编程时关注Sequential Consistency。原创 2014-10-29 10:53:59 · 2052 阅读 · 0 评论 -
7个示例科普CPU Cache
CPU cache一直是理解计算机体系架构的重要知识点,也是并发编程设计中的技术难点,而且相关参考资料如同过江之鲫,浩瀚繁星,阅之如临深渊,味同嚼蜡,三言两语难以入门。正好网上有人推荐了微软大牛Igor Ostrovsky一篇博文《漫游处理器缓存效应》,文章不仅仅用7个最简单的源码示例就将CPU cache的原理娓娓道来,还附加图表量化分析做数学上的佐证,个人感觉这种案例教学的切入方式绝对是俺的菜原创 2014-10-29 10:33:13 · 1526 阅读 · 0 评论 -
Flink从入门到精通100篇(十九)-基于 Flink 的大规模准实时数据分析平台的建设实践
导读: 如何基于 Flink 搭建大规模准实时数据分析平台?在 Flink Forward Asia 2019 上,来自 Lyft 公司实时数据平台的徐赢博士和计算数据平台的高立博士分享了 Lyft 基于 Apache Flink 的大规模准实时数据分析平台的建设实践。本次分享主要分为四个方面:Lyft 的流数据与场景准实时数据分析平台和架构平台性能及容错深...原创 2019-12-30 09:35:02 · 1521 阅读 · 0 评论 -
Flink从入门到精通100篇(十八)-CentOS环境中搭建Flink分布式集群
一.Flink的下载安装包下载地址:http://flink.apache.org/downloads.html ,选择对应Hadoop的Flink版本下载[admin@node21 software]$ wget http://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.6.1/flink-1.6.1-bin-hadoop...原创 2019-12-06 11:08:27 · 1172 阅读 · 0 评论 -
Flink从入门到精通100篇(十七)-Spark/Flink广播如何实现作业配置动态更新?
前言在实时计算作业中,往往需要动态改变一些配置,举几个栗子:实时日志ETL服务,需要在日志的格式、字段发生变化时保证正常解析;实时NLP服务,需要及时识别新添加的领域词与停用词;实时风控服务,需要根据业务情况调整触发警告的规则。那么问题来了:配置每次变化都得手动修改代码,再重启作业吗?答案显然是否定的,毕竟实时任务的终极目标就是7 x 24无...原创 2019-12-23 09:21:32 · 1216 阅读 · 0 评论 -
Flink从入门到精通100篇(二十一)-Apache Flink 与 Apache Hive 的集成
导读:随着 Flink 在流式计算的应用场景逐渐成熟和流行。如果 Flink 能同时把批量计算的应用场景处理好,就能减少用户在使用 Flink 的开发和维护成本,并且能够丰富 Flink 的生态。因为 SQL 是批计算比较常用的工具,所以 Flink 针对于批计算主要以 SQL 为主要接口。本次分享主要针对 Flink 对批处理的设计与 Hive 的集成。主要分为下面三点展开: 设计架构 项目进展 性能测试 首先和大家分享一下 Flink 批处理的设计架构。1.背.原创 2021-05-14 08:51:08 · 983 阅读 · 1 评论 -
Flink从入门到精通100篇(二十一)-Flink 状态(State)管理在推荐场景中的应用
背景Flink作为纯流式大数据实时计算引擎,较于Spark Streaming的微批处理引擎,不管是内存管理,多流合并,还是时间窗口,迭代处理上,Flink在实时计算场景更较适合。而Flink的State状态管理,更是让Flink在实时计算领域,更胜一筹。通过对Flink State状态的灵活妙用,可以完美实现大数据下的实时数仓,实时画像和实时数据监控等功能。场景最近在做推荐数据平台,其中有一个场景需求是要实时统计最近1分钟的UV、点击量、真实曝光量和下发量等热点数据,并可以在不同地域维度.原创 2021-06-29 07:20:06 · 1055 阅读 · 0 评论 -
Flink从入门到精通100篇(二十二)-Apache Flink OLAP引擎性能优化及应用
导读:本次分享的主题为Apache Flink新场景——OLAP引擎,主要内容包括: 背景介绍 Apache Flink OLAP引擎 案例介绍 未来计划 1. OLAP及其分类OLAP是一种让用户可以用从不同视角方便快捷的分析数据的计算方法。主流的OLAP可以分为3类:多维OLAP ( Multi-dimensional OLAP )、关系型OLAP ( Relational OLAP ) 和混合OLAP ( Hybrid OLAP ) 三大类。多维原创 2021-06-30 06:53:09 · 1045 阅读 · 0 评论 -
Flink从入门到精通100篇(二十三)-Apache Flink在滴滴的应用与实践
导读:Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进行快速计算。滴滴基于Apache Flink 做了大量的优化,也增加了更多的功能,比如扩展 DDL、内置消息格式解析、扩展 UDX 等,使得 Flink 能够在滴滴的业务场景中发挥更大的作用。本文中,滴滴出行实时计算负责人、高级技术专家梁李印分享了 Apache Flink 在滴滴的应用与实践。主要内容包括: 服务化概述 StreamSQ.原创 2021-07-03 07:12:45 · 996 阅读 · 0 评论 -
Flink从入门到精通100篇(二十三)-基于Apache Flink的爱奇艺实时计算平台建设实践
导读:随着大数据的快速发展,行业大数据服务越来越重要。同时,对大数据实时计算的要求也越来越高。今天会和大家分享下爱奇艺基于Apache Flink的实时计算平台建设实践。今天的介绍会围绕下面三点展开: Flink的现状与改进 平台化的探索和实践:实时计算平台 Flink业务案例 01Flink的现状与改进1.Flink现状首先和大家分享下爱奇艺大数据服务的发展史。我们从2012年到2019年,大数据服务经过了一系列持续的改进和发展: 2012年搭.原创 2021-05-31 08:44:59 · 1139 阅读 · 4 评论 -
Flink从入门到精通100篇(八)-美团点评是如何在 Flink平台建立 实时数仓的?
导读:本文根据 Apache Flink 系列直播整理而成,由美团点评数据系统研发工程师黄伟伦老师分享。主要内容如下: 实时数仓建设目的 如何建立实时数仓 仓库质量保证 实时数仓建设目的解决传统数仓的问题实时数仓是一个很容易让人产生混淆的概念。实时数仓本身似乎和把 PPT 黑色的背景变得更白一样,从传统的经验来讲,我们认为数仓有一个很重要的功能,即能够记录历史。通常,数仓都是希望从业务上线的第一天开始有数据,然后一直记录到现在。但实时处理技术,又是...原创 2020-09-04 08:27:55 · 1111 阅读 · 0 评论 -
Flink从入门到精通100篇(二十二)-微博基于Flink的机器学习实战项目
导读:微博作为国内比较主流的社交媒体平台,目前拥有2.22亿日活用户和5.16亿月活用户。如何为用户实时推荐优质内容,背后离不开微博的大规模机器学习平台。本文由微博机器学习研发中心高级算法工程师于茜老师分享,主要内容包含以下四部分: 关于微博 微博机器学习平台 ( WML ) 总览 Flink在WML中的应用 使用Flink的下一步计划 01关于微博微博2008年上线,是目前国内比较主流的社交媒体平台,拥有2.22亿日活用户和5.16亿月活用户,为用户提供原创 2021-05-26 08:59:29 · 1183 阅读 · 3 评论 -
Flink从入门到精通100篇(二十)-Zeppelin SDK在Flink 中的应用(附测试代码)
用过Zeppelin 的人应该比较熟悉 Zeppelin 的 UI,因为 Zeppelin 的主要使用场景都是交互式,用户需要手动来操作。那除了这种手动的方式,还有其他的方式吗?如果你不想用 Zeppelin UI,但又想用 Zeppelin 提交和管理大数据作业 (比如 Flink Job)的能力该怎么办?或者是你在 Zeppelin 里写好了代码,想定时调度起来,或者集成到其他系统里,该怎么办?如果你有这样的诉求,那么Zeppelin Client API (SDK)就是你所需要的东西。...原创 2021-03-07 07:11:06 · 1235 阅读 · 0 评论 -
Flink从入门到精通100篇(九)-滴滴是如何在 Flink平台建立 实时数仓的?
随着滴滴业务的高速发展,业务对于数据时效性的需求越来越高,而伴随着实时技术的不断发展和成熟,滴滴也对实时建设做了大量的尝试和实践。本文主要以顺风车这个业务为引子,从引擎侧、平台侧和业务侧各个不同方面,来阐述滴滴所做的工作,分享在建设过程中的经验。1.实时数仓建设目的随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要,商场如战场,在每天产生的海量数据中,如何能实时有效的挖掘出有价值的信息, 对企业的决策运营策略调整有很大帮助。其次从智能商业的角度来讲,数据的结果...原创 2020-09-02 08:12:22 · 1196 阅读 · 0 评论 -
Flink从入门到精通100篇(十五)-Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略
本文先通过源码简单过一下分区提交机制的两个要素——即触发(trigger)和策略(policy)的实现,然后用合并小文件的实例说一下自定义分区提交策略的方法。PartitionCommitTrigger在最新的 Flink SQL 中,FileSystem Connector 原生支持数据分区,并且写入时采用标准 Hive 分区格式,如下所示。 path└── datetime=2019-08-25...原创 2020-10-31 07:51:29 · 1295 阅读 · 0 评论 -
Flink从入门到精通100篇(十)-双亲委派模型与 Flink 的类加载策略
我们知道,在 JVM 中,一个类加载的过程大致分为加载、链接(验证、准备、解析)、初始化5个阶段。而我们通常提到类的加载,就是指利用类加载器(ClassLoader)通过类的全限定名来获取定义此类的二进制字节码流,进而构造出类的定义。Flink 作为基于 JVM 的框架,在 flink-conf.yaml 中提供了控制类加载策略的参数 classloader.resolve-order,可选项有 child-first(默认)和 parent-first。本文来简单分析一下这个参数背后的含义。.原创 2020-08-30 08:34:22 · 1651 阅读 · 0 评论 -
Flink从入门到精通100篇(三)-如何利用InfluxDB+Grafana搭建Flink on YARN作业监控大屏环境
前言虽然笔者之前写过基于Prometheus PushGateway搭建Flink监控的过程,但是在我们的生产环境中,使用的是InfluxDB。InfluxDB是一个由Go语言写成的、由InfluxData部分开源的时序数据库,能够非常好地处理监控指标的存储和查询,配合Grafana即可简单地实现Flink作业metrics的收集与展示。本文简述配置过程及一些小问题。硬件参数新版InfluxDB的集群版是收费的,但是单点也足够我们存储较长时间的监控数据了。 CPU:Intel E5 .原创 2020-08-11 08:47:06 · 1367 阅读 · 0 评论 -
Flink从入门到精通100篇(十一)-Java SPI 机制在 Flink SQL 中的应用
Java SPI 机制简介Java SPI机制,即Java Service Provider Interface,是Java提供的基于“接口编程 + 策略模式 + 配置文件”组合实现的动态加载机制。调用者可以根据实际使用需要,来启用、扩展或者替换框架的现有实现策略。在Java中,基于该SPI思想,提供了具体的实现,ServiceLoader,利用该类可以轻松实现面向服务的注册与发现,完成服务提供与使用的解耦。Java SPI机制常见的例子,如: 数据库驱动接口实现类的加载:JDBC可以根据实际原创 2020-10-26 07:22:49 · 1157 阅读 · 0 评论 -
Flink从入门到精通100篇(七)-如何基于 Flink 搭建一个实用有效的在线实时反欺诈平台?
在大数据时代,金融科技公司通常借助消费数据来综合评估用户的信用和还款能力。这个过程中,某些中介机构会搜集大量的号并进行“养号”工作,即在一年周期里让这些号形成正常的消费、通讯记录,目的是将这些号“培养”得非常健康,然后卖给有欺诈意向的用户。这类用户通过网上信息提交审核,骗到贷款后就“销声匿迹”了。那么,如何更快速地预防或甄别可能的欺诈行为?如何从超大规模、高并发、多维度的数据中实现在线实时反欺诈?这些都是金融科技公司当下面临的主要难题。针对这些问题,InfoQ 专访玖富集团,揭秘基于 Flink .原创 2020-10-19 07:36:01 · 1642 阅读 · 2 评论 -
Flink从入门到精通100篇(二)-在Linux中完整安装flink并做Flink文件的配置
我们已经知道 Flink 是什么东西了,安装好 Flink 后,我们再来看下安装路径下的配置文件吧。安装目录下主要有 flink-conf.yaml 配置、日志的配置文件、zk 配置、Flink SQL Client 配置。flink-conf.yaml基础配置 1#jobManager的IP地址 2jobmanager.rpc.address:localhost 3 4#JobManager的端口号 5jobmanager.rpc.port:6123 6...原创 2020-07-13 08:44:36 · 1403 阅读 · 0 评论 -
Flink从入门到精通100篇(一)-如何在Mac 上搭建 Flink环境并做简单测试
准备工作1、安装查看 Java 的版本号,推荐使用 Java 8。安装 Flink2、在 Mac OS X 上安装 Flink 是非常方便的。推荐通过 homebrew 来安装。1brewinstallapache-flink3、检查安装:1flink--version结果:1Version:1.6.0,CommitID:ff472b44、启动 flink1zhisheng@zhisheng/usr/local/Cellar/apac...原创 2020-07-07 08:33:37 · 1252 阅读 · 0 评论 -
Flink从入门到精通100篇(四)-基于 Flink 和 Drools 的实时日志处理
背景日志系统接入的日志种类多、格式复杂多样,主流的有以下几种日志: filebeat采集到的文本日志,格式多样 winbeat采集到的操作系统日志 设备上报到logstash的syslog日志 接入到kafka的业务日志 以上通过各种渠道接入的日志,存在2个主要的问题: 格式不统一、不规范、标准化不够 如何从各类日志中提取出用户关心的指标,挖掘更多的业务价值 为了解决上面2个问题,我们基于flink和drools规则引擎做了实时的日志处理服务。原创 2020-07-06 10:02:29 · 1794 阅读 · 0 评论 -
Flink从入门到精通100篇(十二)-如何分析和定位 Flink 作业 OOM 问题?
生产环境,我们的 Flink 作业偶尔会出现 heap OOM,那么当出现这种情况我们会怎么办?通常来说会通过 jmap 命令去将作业的 heap dump 一份文件出来,可是 jmap 导出的文件我们也看不懂啊,那么该怎么分析呢?今天推荐 memory analyzer(mat)这个工具,让他帮助我们来观察程序的内存分布情况吧。MAT 不是一个万能工具,它并不能处理所有类型的堆存储文件。但是比较主流的厂家和格式,例如 Sun, HP, SAP 所采用的 HPROF 二进制堆存储文件,以及 IBM 的原创 2020-07-03 09:20:14 · 1374 阅读 · 0 评论 -
Flink从入门到精通100篇(六)-Flink 应用之 对Release 文档进行深度解读
集群和部署 支持 Hadoop 3.0 及更高的版本:Flink 不再提供任何flink-shaded-hadoop-依赖。用户可以通过配置 HADOOP_CLASSPATH 环境变量(推荐)或在 lib 文件夹下放入 Hadoop 依赖项。另外include-hadoopMaven profile 也已经被移除了。 移除了 LegacyScheduler:Flink 不再支持 legacy scheduler,如果你设置了jobmanager.scheduler: legacy...原创 2020-06-30 09:58:45 · 1282 阅读 · 0 评论 -
Flink从入门到精通100篇(十四)-Flink开发IDEA环境搭建与测试
一.IDEA开发环境1.pom文件设置 <properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target> ...原创 2019-12-06 11:09:37 · 1210 阅读 · 0 评论 -
Flink从入门到精通100篇(十三)-Flink的入门教学
一.Flink的引入 这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有Hadoop、Storm,以及后来的Spark,他们都有着各自专注的应用场景。Spark掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark的火热或多或少的掩盖了其他分布式计算的系统身影。就像Flink,也就在这个时候默默的发展着。在国外一些社区,有很多人将大...原创 2019-12-06 11:07:31 · 1656 阅读 · 0 评论 -
Flink从入门到精通100篇(五)-flink变种Alink,对阿里巴巴算法平台Alink简介
近日,阿里云计算部门已在 GitHub 上发布了其 Alink 平台的“核心代码”,并上传了一系列算法库,它们支持批处理和流处理,这对支持机器学习任务至关重要。Alink 是基于 Flink 的通用算法平台,由阿里巴巴计算平台 PAI 团队研发。除了支持阿里自己的平台外,还支持 Kafka,HDFS 和 HBase 等一系列开源数据存储平台。阿里云计算和机器智能部门表示,开发者和数据分析师...原创 2019-12-06 11:05:19 · 2501 阅读 · 0 评论