在这篇文章中,将演示如何将 Kafka Connect 集成到 Cloudera 数据平台 (CDP) 中,从而允许用户在 Streams Messaging Manager 中管理和监控他们的连接器,同时还涉及安全功能,例如基于角色的访问控制和敏感信息处理。如果您是将数据移入或移出 Kafka 的开发人员、管理员或安全专家,那么这篇文章适合您。但在我介绍细节之前,让我们先从基础开始。
Kafka Connect
就本文而言,知道 Kafka Connect 是一个强大的框架就足够了,它可以大规模地将数据传入和传出 Kafka,同时需要最少的代码,因为 Connect 框架已经处理了连接器的大部分生命周期管理。事实上,对于最流行的源和目标系统,已经开发了可以使用的连接器,因此不需要代码,只需要配置。
核心构建块是:连接器,它协调单个源和单个目标(其中一个是 Kafka)之间的数据移动;负责实际数据移动的任务;以及管理所有连接器生命周期的工作人员。
Kafka 允许本地支持部署和管理连接器,这意味着在启动 Connect 集群后提交连接器配置和/或管理已部署的连接器可以通过 Kafka 公开的 REST API 完成。Streams Messaging Manager (SMM) 建立在此之上,并提供了一个用户友好的界面来替换 REST API 调用。
Streams Messaging Manager(SMM)
免责声明:本文中的描述和屏幕截图是使用 CDP 7.2.15 制作的,因为 SMM 正在积极开发中;支持的功能可能会因版本而异(例如可用的连接器类型)。
SMM 是 Cloudera 用于监控 Kafka 及相关服务并与之交互的解决方案。SMM UI 由多个选项卡组成,每个选项卡都包含不同的工具、功能、图表等,您可以使用它们来管理和获得有关 Kafka 集群的清晰见解。本文重点介绍 Connect 选项卡,该选项卡用于与 Kafka Connect 进行交互和监控。
创建和配置连接器
在进行任何监控之前,第一步是使用右上角的 New Connector 按钮创建一个连接器,该按钮导航到以下视图:

左上角显示了两种类型的连接器模板:
将数据摄取到的源和从 Kafka 中提取数据的接收器。默认情况下,源模板选项卡处于选中状态,因此会显示我们集群中可用的源连接器模板。请注意,此页面上的卡片并不代表部署在集群上的连接器实例,而是表示可用于部署在集群上的连接器类型。例如,有一个 JDBC Source 连接器模板,但这并不意味着当前有一个 JDBC Source 连接器将数据移动到 Kafka,它只是意味着所需的库已经到位以支持部署 JDBC Source 连接器。
选择连接器后,将显示连接器表单。

连接器 表单用于配置您的连接器。CDP 中默认包含的大多数连接器都附带示例配置以简化配置。模板中包含的属性和值取决于所选的连接器。通常,每个示例配置都包含连接器工作最可能需要的属性,并且已经存在一些合理的默认值。如果模板可用于特定连接器,则在您选择连接器时它会自动加载到连接器表单中。上面的示例是 Debezium Oracle Source 连接器的预填充表单。
让我们看看连接器表单在配置连接器时提供的功能数量。
添加、删除和配置属性
表单中的每一行代表一个配置属性及其值。可以通过使用属性名称及其配置值填充可用条目来配置属性。可以使用加号/垃圾箱图标添加和删除新属性。

查看和编辑大型配置值
您为某些属性配置的值可能不是短字符串或整数;一些值可以变得相当大。例如,无状态 NiFi 连接器需要flow.snapshot属性,其值是 JSON 文件的全部内容(想想:数百行)。可以通过单击“编辑”按钮在模式窗口中编辑此类属性。
隐藏敏感值
默认情况下,属性以明文形式存储,因此任何有权访问 SMM 并具有适当授权的人都可以看到它们。
安全集成KafkaConnect到CDP

本文介绍如何将KafkaConnect集成到Cloudera数据平台(CDP),并通过StreamsMessagingManager创建、管理和监控连接器。此外,还探讨了CDP7.2.15中的安全特性,包括基于角色的访问控制和敏感信息处理。
最低0.47元/天 解锁文章
307

被折叠的 条评论
为什么被折叠?



