使用 ClickHouse 和 Estuary Flow 进行实时 Salesforce 分析

图片

本文字数:2794;估计阅读时间:7 分钟

作者: Estuary

本文在公众号【ClickHouseInc】首发

图片

实时处理和分析数据的能力已经成为各行业企业的关键需求。ClickHouse 是一个高性能的列式数据库管理系统,与强大的数据集成平台 Estuary Flow 相结合,构建了一个能够从数百个数据源中摄取并转换数据的实时分析平台。

本文将深入探讨通过 Estuary Flow 的 Dekaf 功能将这些技术无缝集成的详细过程。我们还会通过一个实践示例,展示如何基于 Salesforce 数据构建一个实时分析管道。

ClickHouse 的优势

ClickHouse 因其在处理大规模数据集的分析查询方面的卓越性能而广受欢迎。其列式存储格式与并行化的查询执行模式,使其在实时分析工作负载中表现尤为出色。近期,ClickHouse 通过 ClickPipes 进一步提升了自身能力。ClickPipes 是一个集成引擎,旨在简化从基础设施软件(如 Kafka、对象存储和 Postgres)摄取大量数据集的过程。ClickPipes 主要关注高吞吐量,将那些拥有自己 API 的复杂业务数据源的集成,交给自定义代码或像 Estuary 这样的数据集成平台来处理。

Estuary Flow:架起数据集成的桥梁

尽管 ClickHouse 和 ClickPipes 提供了强大的分析能力和高吞吐量支持,但在数据管道中,如何无缝集成数百个实时数据源一直是一个关键挑战。Estuary Flow 支持广泛的数据源,包括针对数据库(如 MongoDB、MySQL、Oracle)的 CDC(变更数据捕获),以及 ClickPipes 未重点关注的 SaaS 平台(如 Netsuite 和 Salesforce)。

过去,将这些多样化的数据源集成到 ClickHouse 中通常需要编写自定义代码或配置复杂的系统,并且常常需要与其他服务(如 Debezium)结合使用。这一复杂过程常常成为瓶颈,增加了基础设施的复杂性和出错的可能性。Estuary Flow 推出的 Dekaf(一种 Kafka API 兼容层)显著简化了这一过程。

Dekaf 是什么?

Dekaf 是 Estuary Flow 推出的创新解决方案,允许用户像读取 Kafka 主题一样读取 Estuary Flow 中的数据集合。它还提供了模式注册 API,用于管理数据模式,从而能够与现有的基于 Kafka 的工具和工作流程无缝集成。

其工作原理如下:

1. 使用 Estuary Flow 连接数据源:通过 Estuary 的连接器,从数据源(如 Salesforce)中实时捕获事件。

2. 利用 Dekaf 作为 Kafka 兼容端点:Dekaf 作为内置的 Kafka 端点,允许 ClickHouse 直接读取 Estuary Flow 集合中的数据。

3. 将数据直接导入 ClickHouse:ClickHouse 通过 ClickPipes 连接到 Estuary Flow,确保顺畅的实时数据摄取。

通过这种集成,您可以使用简化的架构构建强大的实时分析应用程序。结合 Estuary Flow 和 ClickHouse,您可以快速扩展分析能力,满足现代数据驱动应用的需求。

对 ClickHouse 用户的优势

Dekaf 与 ClickHouse 的集成带来了诸多优势:

1. 数据摄取简化:通过 Dekaf,ClickHouse 用户可以直接从 Estuary Flow 支持的数百个实时数据源摄取数据,无需中间系统。

2. 交付保障:Estuary Flow 提供精确一次的交付语义,确保实时数据流的完整性。

3. 可扩展性:该集成利用了 Estuary Flow 和 ClickHouse 的可扩展架构,保证了高吞吐量和低延迟,即使在高需求的工作负载下也能稳定运行。

4. 降低复杂性:无需依赖 Kafka 和 Debezium 等额外服务,使得整体系统更加简化,易于管理。

5. 更广泛的数据源支持:ClickHouse 用户现在可以访问 Estuary Flow 广泛的连接器库,显著扩大了可用数据源的范围。

实现使用 ClickHouse 和 Estuary Flow 进行实时 Salesforce 分析

接下来我们将看看设置这种强大集成的具体步骤。

配置实时 Salesforce 连接器

1. 进入您的 Estuary Flow 仪表板,搜索并选择实时 Salesforce 捕获连接器。  

图片

2. 输入 Salesforce 的凭据并授予所需的权限。  

图片

3. 选择您希望同步的 Salesforce 对象(例如,账户、联系人、商机)。  

图片

4. 使用 Dekaf 将您的 Estuary Flow 集合公开为 Kafka 兼容的主题。  

在这一步,您无需进行任何手动配置,Dekaf 会自动通过 Kafka API 兼容的接口暴露 Salesforce 中的数据集合。连接信息如下:

  • Broker 地址:dekaf.estuary.dev  

  • Schema Registry 地址:https://dekaf.estuary.dev  

  • 安全协议:SASL_SSL  

  • SASL 机制:PLAIN  

  • SASL 用户名:{}  

  • SASL 密码:Estuary 刷新令牌(可在仪表板中生成)  

  • Schema Registry 用户名:{}  

  • Schema Registry 密码:与上面相同的 Estuary 刷新令牌  

在 ClickHouse 中配置 ClickPipes。  

要通过 ClickPipes 使 ClickHouse 从这些集合中摄取数据,请执行以下步骤:

5. 选择 Apache Kafka 作为数据源。  

图片

6. 根据前一步中的连接信息配置对 Estuary Flow 的访问。

图片

7.   确保传入的数据能够正确解析。  

图片

8. 启动集成并等待 ClickPipe 完成部署,整个过程只需几秒钟。  

图片

9. 现在,您可以开始在 ClickHouse 中分析实时数据了!让我们编写一个简单的查询,看看是否可以计算 2024 年所有已关闭交易的总价值。 

图片

结论

ClickHouse 与 Estuary Flow 的集成通过 Dekaf 实现,为实时分析能力带来了巨大的飞跃。ClickHouse 的强大分析性能结合 Estuary Flow 广泛的数据源支持,以及 Dekaf 的无缝集成,企业现在能够轻松构建强大、可扩展且高效的实时分析解决方案。

随着数据规模和速度的不断增长,这一集成为企业提供了强大的工具,使它们能够在数据驱动的时代保持竞争优势,将实时洞察转化为实际的战略行动。

征稿启示

面向社区长期正文,文章内容包括但不限于关于 ClickHouse 的技术研究、项目实践和创新做法等。建议行文风格干货输出&图文并茂。质量合格的文章将会发布在本公众号,优秀者也有机会推荐到 ClickHouse 官网。请将文章稿件的 WORD 版本发邮件至:Tracy.Wang@clickhouse.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值