Flink、Kafka梳理

最新推荐文章于 2025-08-30 15:43:37 发布

原创

最新推荐文章于 2025-08-30 15:43:37 发布 · 7.9k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#flink #kafka #java

flink是什么

flink是一个框架和分布式处理引擎，对于有界流和无界流进行有状态计算

flink的几种模式

独立集群模式：flink可以不依赖于hadoop集群
flink on yarn：依赖于hadoop集群
yarn-session -jm 1024 -tm 1096  (jm jobmanagermemory tm taskmanagermemory)
flink run -c 
先在yarn上启动一个jobmanager 所有job共享一个jobmanager

flink run -m yarn-cluster 
per job-cluster
直接提交任务到yarn集群上，每一个job独享一个jobmanager

flink的几种提交模式

web页面提交
flink run -c
rpc远程提交（
创建flink环境
StreamExecutionEnvironment.createRemoteEnvironment("ip",PORT,"jarFile")
）

kafka

kafka架构

producer：消息生产者
consumer：消息消费者
broker：kafka集群的server，负责处理消息读，写请求，存储消息
topic：消息队列、分类 一个topic中的数据结构要一样
queue里面有生产者消费模型

kafka的消息存储和生产消费模型

一个topic分成多个partition
每个partition内部有序，都有一个offset
消息不经过内存缓冲，直接写入文件（零拷贝）
根据实践策略删除，不是消费完就删除
producer写入partition可以是轮询也可以是hash

consumer自己维护消费到哪个offset
一个消息在一个组内只被消费一次

kafka有哪些特点

消息系统的特点：生产者消费者模型，FIFO（先进先出，一个分区的时候才能保证顺序）
高性能：单节点支持上千个客户端，百MB/s吞吐
持久性：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xiaochen_bigdata

关注关注

2
点赞
踩
23

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Flink与Kafka集成：构建实时数据处理管道的完整指南

SuperAGI2025

10-05

1030

本文旨在为开发者和架构师提供一份全面的Flink与Kafka集成指南，涵盖从基础概念到高级应用的全方位知识。Flink与Kafka的核心概念与协同工作原理如何设计和实现高效的实时数据处理管道实际生产环境中的最佳实践和常见问题解决方案核心概念与联系：介绍Flink和Kafka的基本原理及协同工作机制集成架构设计：详细解析Flink-Kafka集成的技术架构代码实现：通过实际案例展示如何构建实时数据处理管道生产实践：分享性能调优、监控和故障处理经验未来展望：探讨技术发展趋势和潜在挑战。

Flink CDC 与 Kafka 集成：Snapshot 还是 Changelog？Upsert Kafka 还是 Kafka？

Laurence的技术博客

02-05

2049

我们知道，尽管 Flink CDC 可以越过 Kafka，将关系型数据库中的数据表直接“映射”成数据湖上的一张表（例如 Hudi 等），但从整体架构上考虑，维护一个 Kafka 集群作为数据接入的统一管道是非常必要的，这会带来很多收益。在 Flink CDC 之前，以 Debezium + Kafka Connect 为代表的技术组合都是将数据库的CDC数据先接入到 Kafka 中，然后再由后续的组件解析和处理。

1 条评论您还未登录，请先登录后发表或查看评论

Apache Flink和Kafka入门

最佳 Java 编程

06-03

863

介绍 Apache Flink是用于分布式流和批处理数据处理的开源平台。 Flink是具有多个API的流数据流引擎，用于创建面向数据流的应用程序。 Flink应用程序通常使用Apache Kafka进行数据输入和输出。本文将指导您逐步使用Apache Flink和Kafka。先决条件 Apache Kafka 0.9.x 吉特 Maven 3.x或更高版本 ...

Flink与Kafka

Suzy_Leili的博客

06-04

1920

Apache Flink是一个流处理框架，用于处理大量实时数据。它支持数据流和数据集两种操作模式，可以处理批量数据和流式数据。Flink提供了一种高效的、可扩展的、可靠的流处理解决方案，适用于各种应用场景，如实时分析、事件驱动应用、数据流处理等。具体来说，Flink可以作为Kafka的消费者，从Kafka中读取数据，并进行流处理。同时，Flink也可以将处理结果写入Kafka，实现数据的持久化和分布式传输。因此，Flink和Kafka在数据流处理中具有很高的兼容性和可扩展性。

Flink与Kafka集成

AI天才研究院

01-18

4319

1.背景介绍 Flink与Kafka集成是一种常见的大数据处理技术，它可以帮助我们实现实时数据处理和分析。Flink是一个流处理框架，可以处理大量数据并提供实时分析功能。Kafka是一个分布式消息系统，可以用于构建实时数据流管道。在本文中，我们将深入了解Flink与Kafka集成的背景、核心概念、算法原理、代码实例等方面。 1.1 Flink的背景 Flink是一个开源的流处理框架，由Apa...

数据流处理框架Flink与Kafka

AI天才研究院

01-25

2321

1.背景介绍在大数据时代，数据流处理技术已经成为了一种重要的技术手段，用于处理和分析大量实时数据。Apache Flink和Apache Kafka是两个非常重要的开源项目，它们在数据流处理领域具有广泛的应用。本文将深入探讨Flink和Kafka的关系以及它们在数据流处理中的应用，并提供一些最佳实践和实际案例。 1. 背景介绍 Apache Flink是一个流处理框架，用于处理大量实时数据...

flink与kafka基础知识

2403_83630621的博客

07-31

1824

Flink是一个分布式实时计算框架。用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。有状态：有状态计算是将当前批次结果加上上一批次计算的结果。无界流有定义流的开始，但没有定义流的结束(没有边界)。它们会无休止地产生数据。流处理。有界流有定义流的开始，也有定义流的结束。有界流(假如1000条数据)，即可批处理(一次处理一批)，也可以流处理(一条一条处理)。任意规模进行计算：指的是flink主从节点。jobmanager:driver端。

你真的了解Flink Kafka source吗？

jmx_bigdata的博客

04-06

1284

Flink 提供了专门的 Kafka 连接器，向 Kafka topic 中读取或者写入数据。Flink Kafka Consumer 集成了 Flink 的 Checkpoint 机制，可提供 exactly-once 的处理语义。为此，Flink 并不完全依赖于跟踪 Kafka 消费组的偏移量，而是在内部跟踪和检查偏移量。引言当我们在使用Spark Streaming、Flink等计算框...

使用Flink处理Kafka中的数据

2301_77578187的博客

01-22

1644

使用Flink处理Kafka中的数据

flink基本原理与kafka数据处理实践

m0_37516785的博客

07-20

2114

flink基本原理与kafka数据处理实践基本原理简介工作原理flink算子说明与代码解析MapFliteFlatMapKeyby分组后的聚合或数值运算Reduceflink的窗口计数窗口countWindow滚动窗口滑动窗口slidingWindowSession窗口EventTime窗口kafka数据处理实践flink数据处理流程flink处理kafka数据功能及环境说明功能说明kafka环境生产消息（Source）消息格式topic name数据处理（transformation）消息重写（sink）

Flink与Kafka的爱恨情仇

zhiwen

09-23

3064

使用 Flink-connector-kafka 可能会遇到的问题如何消费多个 Kafka Topic 通常可能会有很多类型的数据全部发到 Kafka，但是发送的数据却不是在同一个 Topic 里面，然后在 Flink 处消费的时候，又要去同时消费这些多个 Topic，在 Flink 中除了支持可以消费单个 Topic 的数据，还支持传入多个 Topic，另外还支持 Topic 的正则表达式（因为有时候可能会事先不确定到底会有多少个 Topic，所以使用正则来处理会比较好，只要在 Kafka 建立的 To

Kafka 和 Flink的讲解

不辉放弃的博客

04-05

1825

【代码】Kafka 和 Flink的讲解。

Flink与Kafka集成：构建实时数据管道的完美方案