Apache Kafka 3.1数据导出工具：Kafka Connect使用指南-优快云博客

Apache Kafka 3.1数据导出工具：Kafka Connect使用指南

【免费下载链接】kafka Mirror of Apache Kafka 项目地址: https://gitcode.com/gh_mirrors/kafka31/kafka

1. 什么是Kafka Connect？

Kafka Connect是Apache Kafka生态系统中的一个工具，用于在Kafka和其他系统之间可靠地流式传输数据。它简化了定义连接器（connectors）的过程，使大量数据能够轻松地流入和流出Kafka。

Kafka Connect的主要特点包括：

提供Kafka连接器的通用框架
支持分布式和独立两种运行模式
通过REST API管理连接器
自动偏移量管理
默认支持分布式和可扩展性
桥接流处理和批处理数据系统

官方文档：docs/connect.html

2. 运行模式介绍

2.1 独立模式（Standalone）

独立模式在单个进程中执行所有工作，配置简单，适合收集日志文件等场景，但不具备容错能力。

启动命令：

$ bin/connect-standalone.sh config/connect-standalone.properties [connector1.properties connector2.json ...]

主要配置文件：config/connect-standalone.properties

2.2 分布式模式（Distributed）

分布式模式可自动平衡工作负载，支持动态扩展，并提供容错能力。配置和偏移量提交数据都存储在Kafka主题中。

启动命令：

$ bin/connect-distributed.sh config/connect-distributed.properties

主要配置文件：config/connect-distributed.properties

分布式模式关键配置参数：

group.id：集群唯一名称
config.storage.topic：存储连接器和任务配置的主题
offset.storage.topic：存储偏移量的主题
status.storage.topic：存储状态的主题

3. 配置连接器

连接器配置是简单的键值映射，可以通过属性文件或REST API提交。以下是一些通用配置选项：

name：连接器的唯一名称
connector.class：连接器的Java类
tasks.max：应为该连接器创建的最大任务数
key.converter：（可选）覆盖工作器设置的默认键转换器
value.converter：（可选）覆盖工作器设置的默认值转换器

对于接收器连接器（Sink Connector），还需要设置以下选项之一：

topics：逗号分隔的主题列表
topics.regex：匹配主题的正则表达式

4. 文件接收器连接器示例

以下是一个文件接收器连接器的配置示例：

name=local-file-sink
connector.class=FileStreamSink
tasks.max=1
file=test.sink.txt
topics=connect-test

配置文件：config/connect-file-sink.properties

这个配置定义了一个名为local-file-sink的连接器，它将从connect-test主题读取数据并写入到test.sink.txt文件中。

5. 数据转换（Transformations）

Kafka Connect允许配置转换（transformations）来对消息进行轻量级的修改。转换配置包括：

transforms：转换别名列表，指定应用顺序
transforms.$alias.type：转换的全限定类名
transforms.$alias.$transformationSpecificConfig：转换的特定配置属性

5.1 内置转换

Kafka Connect包含多种常用的数据转换：

Cast：将字段或整个键/值转换为特定类型
DropHeaders：按名称删除头部信息
ExtractField：从结构体或映射中提取特定字段
Filter：从处理中移除消息
Flatten：展平嵌套的数据结构
HoistField：将整个事件包装为结构体或映射中的单个字段
InsertField：使用静态数据或记录元数据添加字段
MaskField：用特定类型的有效值替换字段
RegexRouter：基于正则表达式修改记录的主题
ReplaceField：过滤或重命名字段
SetSchemaMetadata：修改模式名称或版本
TimestampConverter：在不同格式之间转换时间戳
TimestampRouter：基于时间戳修改记录的主题
ValueToKey：用记录值中的字段子集形成新键

5.2 转换示例

以下是一个使用转换的文件源连接器配置示例：

name=local-file-source
connector.class=FileStreamSource
tasks.max=1
file=test.txt
topic=connect-test
transforms=MakeMap, InsertSource
transforms.MakeMap.type=org.apache.kafka.connect.transforms.HoistField$Value
transforms.MakeMap.field=line
transforms.InsertSource.type=org.apache.kafka.connect.transforms.InsertField$Value
transforms.InsertSource.static.field=data_source
transforms.InsertSource.static.value=test-file-source

这个配置使用了两个转换：

HoistField：将输入行放入Map中
InsertField：添加一个静态字段标识事件来源

6. REST API

Kafka Connect提供了REST API来管理连接器，以下是主要端点：

GET /connectors：返回活动连接器列表
POST /connectors：创建新连接器
GET /connectors/{name}：获取特定连接器的信息
GET /connectors/{name}/config：获取特定连接器的配置参数
PUT /connectors/{name}/config：更新特定连接器的配置参数
PATCH /connectors/{name}/config：部分更新连接器配置
GET /connectors/{name}/status：获取连接器的当前状态
GET /connectors/{name}/tasks：获取连接器的任务列表

7. 完整的数据导出流程

以下是使用文件接收器连接器将Kafka数据导出到文件的完整步骤：

准备连接器配置文件：config/connect-file-sink.properties
启动独立模式的Kafka Connect：

$ bin/connect-standalone.sh config/connect-standalone.properties config/connect-file-sink.properties

监控输出文件（默认为test.sink.txt），查看导出的数据
如需修改配置，可以通过编辑属性文件并重启Connect，或使用REST API进行更新

8. 总结

Kafka Connect提供了一种可靠、可扩展的方式，用于在Kafka和其他系统之间传输数据。通过选择合适的连接器和配置适当的转换，您可以轻松实现Kafka数据的导出功能。无论是简单的文件导出还是复杂的企业系统集成，Kafka Connect都能提供灵活且强大的解决方案。

要了解更多关于Kafka Connect的信息，请参阅官方文档：docs/connect.html

【免费下载链接】kafka Mirror of Apache Kafka 项目地址: https://gitcode.com/gh_mirrors/kafka31/kafka

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考