Flink
文章平均质量分 90
Flink
TTXS123456789ABC
基础要扎实!方案设计,baseline落地,发现问题,解决问题,方案优化(利他+敬畏生产)。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flink技术理解
这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink,也就在这个时候默默的发展着。在国外一些社区,有很多人将大数据的计算引擎分成了 4 代,当然,也有很多人不会认同。我们先姑且这么认为和讨论。首先第一代的计算引擎,无疑就是 Hadoop 承载的 MapReduce原创 2025-03-08 20:45:50 · 1054 阅读 · 0 评论
-
Flink技术栈
Checkpoint 机制是 Flink 可靠性的基石,可以保证 Flink 集群在某个算子因为某些原因(如 异常退出)出现故障时,能够将整个应用流图的状态恢复到故障之前的某一状态,保证应用流图状态的一致性。Flink 的 Checkpoint 机制原理来自“Chandy-Lamport algorithm”算法。原创 2024-05-05 15:14:42 · 1047 阅读 · 0 评论
-
12 Flink 面试题
Client是Flink程序提交的客户端,当用户提交一个Flink程序时,会首先创建一个Client,该Client首先会对用户提交的Flink程序进行预处理,并提交到Flink集群中处理,所以Client需要从用户提交的Flink程序配置中获取JobManager的地址,并建立到JobManager的连接,将Flink Job提交给JobManager。而 Flink 的 Checkpoint 机制要复杂了很多,它采用的是轻量级的分布式快照,实现了每个算子的快照,及流动中的数据的快照。原创 2025-02-01 18:58:50 · 754 阅读 · 0 评论 -
11 基于 Flink 构建全场景实时数仓
接着需要新起一个任务,从原来比较早的一个时间节点去消费 Kafka 上的数据,然后当这个新的任务运行的进度已经能够和现在的正在跑的任务齐平的时候,你就可以把现在任务的下游切换到新的任务上面,旧的任务就可以停掉,并且原来产出的结果表也可以被删掉。对于实时数仓来说,怎么去解决数据重算问题?实时明细层:在明细层,为了解决重复建设的问题,要进行统一构建,利用离线数仓的模式,建设统一的基础明细数据层,按照主题进行管理,明细层的目的是给下游提供直接可用的数据,因此要对基础层进行统一的加工,比如清洗、过滤、扩维等。原创 2025-02-01 18:25:31 · 1159 阅读 · 0 评论 -
10 Flink CDC
核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。Flink 社区开发了 flink-cdc-connectors 组件,这是一个可以直接从 MySQL、PostgreSQL 等数据库直接读取全量数据和增量变更数据的 source 组件。在广义的概念上,只要能捕获数据变更的技术,我们都可以称为 CDC。通常我们说的 CDC 技术主要面向数据库的变更,是一种用于捕获数据库中数据变更的技术。原创 2025-02-01 18:21:07 · 987 阅读 · 0 评论 -
9 Flink CEP
Apache Flink在实现CEP时借鉴了Efficient Pattern Matching over Event Streams论文中NFA的模型,在这篇论文中,还提到了一些优化,我们在这里先跳过,只说下NFA的概念。在这篇论文中,提到了NFA,也就是Non-determined Finite Automaton,叫做不确定的有限状态机,指的是状态有限,但是每个状态可能被转换成多个状态(不确定)。非确定有限自动状态机先介绍两个概念:状态:状态分为三类,起始状态、中间状态和最终状态。原创 2025-02-01 18:18:09 · 734 阅读 · 0 评论 -
8 Flink SQL
Flink SQL 是 Flink 实时计算为简化计算模型,降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言。自 2015 年开始,阿里巴巴开始调研开源流计算引擎,最终决定基于 Flink 打造新一代计算引擎,针对 Flink 存在的不足进行优化和改进,并且在 2019 年初将最终代码开源,也就是我们熟知的 Blink。Blink 在原来的 Flink 基础上最显著的一个贡献就是 Flink SQL 的实现。原创 2025-02-01 18:10:30 · 671 阅读 · 0 评论 -
9 Flink的容错机制
checkpoint机制是Flink可靠性的基石,可以保证Flink集群在某个算子因为某些原因(如 异常退出)出现故障时,能够将整个应用流图的状态恢复到故障之前的某一状态,保 证应用流图状态的一致性。Flink的checkpoint机制原理来自“Chandy-Lamport algorithm”算法。原创 2025-02-01 17:34:19 · 864 阅读 · 0 评论 -
8 Flink 状态管理
我们前面写的 wordcount 的例子,没有包含状态管理。如果一个task在处理过程中挂掉了,那么它在内存中的状态都会丢失,所有的数据都需要重新计算。从容错和消息处理的语义上(at least once, exactly once),Flink引入了state和checkpoint。原创 2025-02-01 17:16:24 · 1706 阅读 · 0 评论 -
7 Flink处理函数
所以这一层接口就被叫作**“处理函数”(process function)**。原创 2025-02-23 14:48:33 · 966 阅读 · 0 评论 -
6 Flink的Time时间和Window窗口
Flink 是流式的、实时的 计算引擎。上面一句话就有两个概念,一个是流式,一个是实时。流式:就是数据源源不断的流进来,也就是数据没有边界,但是我们计算的时候必须在一个有边界的范围内进行,所以这里面就有一个问题,边界怎么确定?无非就两种方式,根据时间段或者数据量进行确定,根据时间段就是每隔多长时间就划分一个边界,根据数据量就是每来多少条数据划分一个边界,Flink 中就是这么划分边界的,本文会详细讲解。实时:就是数据发送过来之后立马就进行相关的计算,然后将结果输出。原创 2025-02-01 16:14:08 · 981 阅读 · 0 评论 -
5 Flink 算子大全-DataStream API
Flink和Spark类似,也是一种一站式处理的框架;既可以进行批处理(DataSet),也可以进行实时处理(DataStream)。所以下面将Flink的算子分为两大类:一类是DataSet,一类是DataStream。原创 2025-02-01 15:58:40 · 1050 阅读 · 0 评论 -
3 Flink 运行架构
Source: 数据源,Flink 在流处理和批处理上的 source 大概有 4 类:基于本地集合的 source、基于文件的 source、基于网络套接字的 source、自定义的 source。Flink的所有操作都称之为Operator,客户端在提交任务的时候会对Operator进行优化操作,能进行合并的Operator会被合并为一个Operator,合并后的Operator称为Operator chain,实际上就是一个执行链,每个执行链会在TaskManager上一个独立的线程中执行。原创 2025-02-01 15:42:18 · 1286 阅读 · 0 评论 -
2 Flink 部署及启动
Flink 支持多种安装模式:1.local(本地)——单机模式,一般不使用;2.standalone——独立模式,Flink 自带集群,开发测试环境使用;3.yarn——计算资源统一由 Hadoop YARN 管理,生产环境使用。Flink 集群的安装不属于本文档的范畴,如安装 Flink,可自行搜索资料进行安装。本节重点在 Flink 的 Yarn 部署模式。原创 2025-02-01 15:30:25 · 1343 阅读 · 0 评论 -
1 Flink 简介
Flink 起源于 Stratosphere 项目,Stratosphere 是在 2010~2014 年由 3 所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目,2014 年 4 月 Stratosphere 的代码被复制并捐赠给了 Apache 软件基金会,参加这个孵化项目的初始成员是 Stratosphere 系统的核心开发人员,2014 年 12 月,Flink 一跃成为 Apache 软件基金会的顶级项目。原创 2025-02-01 15:15:58 · 980 阅读 · 0 评论 -
ClickHouse特点
ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的列式存储数据库(DBMS),使用 C++语言编写,主要用于在线分析处理查询(OLAP),能够使用 SQL 查询实时生成分析数据报告。转载 2024-04-19 11:34:27 · 884 阅读 · 0 评论 -
Flink提交任务
第3章 Flink部署。原创 2024-09-20 16:37:57 · 1635 阅读 · 0 评论 -
Flink快速上手
基于DataSet API(过时的,不推荐)之后用 DataStream API。原创 2024-09-08 15:26:12 · 603 阅读 · 0 评论 -
Flink笔记
Flink笔记原创 2023-07-21 21:51:36 · 651 阅读 · 0 评论
分享