在CDP平台上安全的使用Kafka Connect

本文介绍如何将KafkaConnect集成到Cloudera数据平台(CDP),并通过StreamsMessagingManager创建、管理和监控连接器。此外,还探讨了CDP7.2.15中的安全特性,包括基于角色的访问控制和敏感信息处理。

在这篇文章中,将演示如何将 Kafka Connect 集成到 Cloudera 数据平台 (CDP) 中,从而允许用户在 Streams Messaging Manager 中管理和监控他们的连接器,同时还涉及安全功能,例如基于角色的访问控制和敏感信息处理。如果您是将数据移入或移出 Kafka 的开发人员、管理员或安全专家,那么这篇文章适合您。但在我介绍细节之前,让我们先从基础开始。

Kafka Connect

就本文而言,知道 Kafka Connect 是一个强大的框架就足够了,它可以大规模地将数据传入和传出 Kafka,同时需要最少的代码,因为 Connect 框架已经处理了连接器的大部分生命周期管理。事实上,对于最流行的源和目标系统,已经开发了可以使用的连接器,因此不需要代码,只需要配置。

核心构建块是:连接器,它协调单个源和单个目标(其中一个是 Kafka)之间的数据移动;负责实际数据移动的任务;以及管理所有连接器生命周期的工作人员。

Kafka 允许本地支持部署和管理连接器,这意味着在启动 Connect 集群后提交连接器配置和/或管理已部署的连接器可以通过 Kafka 公开的 REST API 完成。Streams Messaging Manager (SMM) 建立在此之上,并提供了一个用户友好的界面来替换 REST API 调用。

Streams Messaging Manager(SMM)

免责声明:本文中的描述和屏幕截图是使用 CDP 7.2.15 制作的,因为 SMM 正在积极开发中;支持的功能可能会因版本而异(例如可用的连接器类型)。

SMM 是 Cloudera 用于监控 Kafka 及相关服务并与之交互的解决方案。SMM UI 由多个选项卡组成,每个选项卡都包含不同的工具、功能、图表等,您可以使用它们来管理和获得有关 Kafka 集群的清晰见解。本文重点介绍 Connect 选项卡,该选项卡用于与 Kafka Connect 进行交互和监控。

创建和配置连接器

在进行任何监控之前,第一步是使用右上角的 New Connector 按钮创建一个连接器,该按钮导航到以下视图:

图片

左上角显示了两种类型的连接器模板:图片     将数据摄取到的源和从 Kafka 中提取数据的接收器。默认情况下,源模板选项卡处于选中状态,因此会显示我们集群中可用的源连接器模板。请注意,此页面上的卡片并不代表部署在集群上的连接器实例,而是表示可用于部署在集群上的连接器类型。例如,有一个 JDBC Source 连接器模板,但这并不意味着当前有一个 JDBC Source 连接器将数据移动到 Kafka,它只是意味着所需的库已经到位以支持部署 JDBC Source 连接器。

选择连接器后,将显示连接器表单。

图片

连接器 表单用于配置您的连接器。CDP 中默认包含的大多数连接器都附带示例配置以简化配置。模板中包含的属性和值取决于所选的连接器。通常,每个示例配置都包含连接器工作最可能需要的属性,并且已经存在一些合理的默认值。如果模板可用于特定连接器,则在您选择连接器时它会自动加载到连接器表单中。上面的示例是 Debezium Oracle Source 连接器的预填充表单。

让我们看看连接器表单在配置连接器时提供的功能数量。

添加、删除和配置属性

表单中的每一行代表一个配置属性及其值。可以通过使用属性名称及其配置值填充可用条目来配置属性。可以使用加号/垃圾箱图标添加和删除新属性。

图片

查看和编辑大型配置值

您为某些属性配置的值可能不是短字符串或整数;一些值可以变得相当大。例如,无状态 NiFi 连接器需要flow.snapshot属性,其值是 JSON 文件的全部内容(想想:数百行)。可以通过单击“编辑”按钮在模式窗口中编辑此类属性。图片

隐藏敏感值

默认情况下,属性以明文形式存储,因此任何有权访问 SMM 并具有适当授权的人都可以看到它们。

在阿里云Cloudera CDP平台上实施数据的安全治理和弹性扩展是一个多步骤的过程,需要综合考虑数据平台的架构和特性。针对这个问题,我强烈推荐您参考《阿里云Cloudera CDP:企业数据云平台实战指南》一书,该书提供了详细的操作指南和最佳实践。 参考资源链接:[阿里云Cloudera CDP:企业数据云平台实战指南](https://wenku.youkuaiyun.com/doc/6zbeq4xaez?spm=1055.2569.3001.10343) 首先,阿里云Cloudera CDP作为一个企业数据云平台,它通过集成Hadoop生态系统的组件,如Hive和HBase,来支持大数据处理。为了确保数据的安全CDP提供了细粒度的安全治理策略,包括但不限于Kerberos认证、审计日志记录和基于角色的访问控制(RBAC)。在实施过程中,您需要根据企业的安全政策来配置这些功能,确保数据的访问和处理符合安全标准。 其次,为了实现弹性扩展,CDP支持自动化的资源管理,这允许数据平台根据负载动态地调整资源分配。例如,可以设置自动扩缩容策略来根据工作负载自动增加或减少计算资源。在Hadoop集群中,这通常涉及到调整YARN和HDFS的配置参数,以适应不同的作业需求。 通过《阿里云Cloudera CDP:企业数据云平台实战指南》,您可以学习到如何配置和优化这些安全和弹性相关的设置,以满足您的特定需求。书中涵盖了从基础架构设计到高级功能配置的各个方面,使您能够充分利用CDP平台的优势。 在实践这些概念时,您还需要注意监控和维护,持续观察数据平台的运行状态,并及时调整策略以应对可能出现的新挑战。如果您在实施过程中遇到任何问题,还可以利用阿里云提供的技术支持和社区资源,以获得专业的帮助。 总之,掌握阿里云Cloudera CDP平台的数据安全治理和弹性扩展不仅需要了解其技术细节,还需要不断地实践和优化。《阿里云Cloudera CDP:企业数据云平台实战指南》将为您提供实现这些目标所需的全面知识和实用工具。 参考资源链接:[阿里云Cloudera CDP:企业数据云平台实战指南](https://wenku.youkuaiyun.com/doc/6zbeq4xaez?spm=1055.2569.3001.10343)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值