Airbyte,数据集成的未来

Gartner 曾预计,到 2025 年,80% 寻求扩展数字业务的组织将失败。因为他们没有采用现代方法来进行数据和分析治理。

数据生态是基础架构生态的最重要一环,数据的处理分发与计算,从始至终贯穿了整个数据流通生态。自从数据集中在数据仓库和数据湖中,数据集成已经发生了翻天覆地的变化,我们现在通常称其为现代数据技术栈。但今天的现代,也可能成为明天的过时。

如今,数据治理愈发重要,我们常常发现 80% 的数据业务,其实是靠 20% 的数据在支撑;同样,80% 的数据质量问题,其实是由那 20% 的系统和人产生的。Gartner 曾预计,到 2025 年,80% 寻求扩展数字业务的组织将失败。因为他们没有采用现代方法来进行数据和分析治理。

这其中的数据集成问题引人关注,就不得不提到现代数据技术栈底部的 E (数据抽取 Extract) T (数据转换 Transform) L (数据加载 Load) 和反 ELT 问题。行业预计,未来企业仍会增加他们必须构建和维护的内部连接器数量。今天我们想介绍这样一家企业——Airbyte,一家专注于 ELT 管道的开源数据集成平台。

源起:YC 加速器

2020 年,LiverRamp 和 Michel Tricot (RideOS 前工程总监兼集成负责人),以及 John Lafleur (专注于开发工具和 B2B 服务的连续创业者) 共同创立了 Airbyte。

在早期,这个团队是想专注于营销公司的数据连接,并带着这个想法加入了 YC 加速器,但由于受到疫情等因素影响,他们没能成功。也就在此时,团队决定进行更深入的数据集成,也就是今天我们所见的 Airbyte——面向数据工程,没有局限于特定行业,但提供了用于构建连接器的图形 UI,以及供开发人员挂钩的 API。

团队认为,许多公司都是从构建自己的数据连接器开始,往往最初的效果还不错,但长期下来,他们逐渐会发现复杂性在于做维护,也就是数据整合的成本在维护的投入。即便对于专门构建这些连接器的公司来说,其复杂性也将让它们很难持续跟上连接器的发展,Airbyte 希望成为复制数据的标准。

此后,2020 年 7 月到 9 月,Airbyte 团队在 3 个月内与领先使用 ETL/ELT 工具的客户,进行了 45 次电话沟通,了解到客户即使为这些解决方案付费,也不得不在旁边构建和维护连接器,因为他们要么不受支持,要么支持但不以他们需要的方式。

除此之外,大多数 ETL/ELT 平台都是基于云的,需要将数据移出基础架构。这不仅增加了不必要的成本,还给越来越多公司带来数据隐私和数据安全风险。最后,工程师们还是要自己开发和维护这些连接。正是基于这些调研,使 Airbyte 团队更加相信自己所选的方向。

资本:快速给予支持

Airbyte 获得了越来越多的关注。根据 Airbyte 自己披露的信息,2020 年 11 月的使用量是 10 月的两倍。在 2021 年 2 月之前,Airbyte 实现了每月 100% 的增长,每个月都有 500 次部署。良好的数据也引来了 Accel 的 520 万美元种子轮投资。同年 5 月,仅仅 3 个月后,由 Benchmark 领投的 A 轮 2600 万美元融资完成。

到 2021 年 11 月时,Airbyte 的部署已经达 100k,连接器数量也迅猛增长。此时,Altimeter Cap

<think>嗯,用户想知道Kibana能不能集成ClickHouse数据源。首先,我需要回忆一下Kibana的数据源支持情况。Kibana主要是设计用来和Elasticsearch一起使用的,通常通过Elasticsearch的REST API来查询数据。那ClickHouse这边,它有自己的查询接口,可能不是直接兼容Elasticsearch的协议。 接下来,用户可能需要知道是否有官方或者社区提供的插件。我记得Kibana支持插件扩展,所以或许有第三方开发的连接器。比如,Open Distro for Elasticsearch或者一些开源项目可能有适配的方案。另外,Logstash或者其他的ETL工具可能可以作为中间层,将ClickHouse的数据导入到Elasticsearch,然后再由Kibana展示。这种方法虽然增加了步骤,但可能更稳定,毕竟Elasticsearch和Kibana是天然集成的。 另外,可能需要提到一些替代方案,比如Grafana,它原生支持ClickHouse,或许更适合用户的需求。但用户可能已经在使用Kibana,所以更希望继续用现有的工具。这时候需要确认用户的具体场景,是否有必要坚持Kibana,或者是否有灵活性更换可视化工具。 还要考虑用户的技术栈,如果他们已经在使用ClickHouse,可能需要高效的数据分析工具。如果数据量很大,直接使用ClickHouse的集成方案可能更高效,避免ETL带来的延迟和复杂性。这时候可能需要推荐一些社区项目或者商业解决方案,比如clickhouse-kibana这样的插件,如果存在的话。 另外,需要检查这些插件的维护状态和兼容性,确保它们支持当前版本的Kibana和ClickHouse。可能还需要用户自己进行一些定制开发,比如利用Kibana的REST API或者自定义数据源插件,但这需要一定的开发资源。 总结来说,虽然Kibana本身不直接支持ClickHouse,但通过间接的方法或者第三方工具可以实现集成。用户需要根据自身的技术能力和需求选择最合适的方案,可能还需要权衡引入额外组件带来的复杂性。</think>Kibana 原生不支持直接集成 ClickHouse 数据源,但可通过以下方案实现间接集成: --- ### 一、原生限制 1. **设计定位** Kibana 专为 Elasticsearch 设计,依赖其 REST API 和 DSL 查询语法。 2. **协议差异** ClickHouse 使用 TCP/HTTP 协议和 SQL 接口,与 Elasticsearch 的 JSON over HTTP 协议不兼容。 --- ### 二、间接集成方案 #### 方案 1:通过 Elasticsearch 中转 $$ \text{ClickHouse} \xrightarrow{ETL} \text{Elasticsearch} \xrightarrow{Kibana} $$ - **工具选择** - Logstash:使用 [JDBC 输入插件](https://www.elastic.co/guide/en/logstash/current/plugins-inputs-jdbc.html) 定期拉取 ClickHouse 数据 - Airbyte:通过 [ClickHouse 连接器](https://docs.airbyte.com/integrations/sources/clickhouse) + [Elasticsearch 目标连接器](https://docs.airbyte.com/integrations/destinations/elasticsearch) 实现自动同步 - **示例 Logstash 配置** ```ruby input { jdbc { jdbc_driver_library => "/path/to/clickhouse-jdbc.jar" jdbc_driver_class => "com.clickhouse.jdbc.ClickHouseDriver" jdbc_connection_string => "jdbc:clickhouse://localhost:8123/database" schedule => "* * * * *" statement => "SELECT * FROM table" } } output { elasticsearch { hosts => ["localhost:9200"] index => "clickhouse_data" } } ``` --- #### 方案 2:使用第三方插件 - **OpenSearch 兼容层** 通过 [OpenSearch](https://opensearch.org/) 的 SQL 插件模拟 Elasticsearch 协议,但需适配 ClickHouse 语法。 - **社区开发插件** 尝试开源项目如 [clickhouse-kibana](https://github.com/mutedjam/clickhouse-kibana)(需验证版本兼容性)。 --- #### 方案 3:定制开发 1. **实现步骤** - 开发 Kibana 插件,通过 ClickHouse 的 [HTTP 接口](https://clickhouse.com/docs/en/interfaces/http) 查询数据 - 将 SQL 查询结果转换为 Elasticsearch 兼容的 JSON 格式 2. **关键技术点** - 使用 Kibana Plugin API 创建自定义数据源 - 实现 SQL → Elasticsearch DSL 的语法转换层 --- ### 三、替代方案建议 若对 Kibana 无强依赖,推荐: 1. **Grafana** 原生支持 [ClickHouse 数据源](https://grafana.com/grafana/plugins/vertamedia-clickhouse-datasource/),提供更流畅的 SQL 可视化体验。 2. **Metabase** 通过 [ClickHouse 驱动](https://www.metabase.com/docs/latest/databases/clickhouse.html) 实现 BI 分析。 --- ### 四、选择依据 | 方案 | 开发成本 | 实时性 | 维护复杂度 | 适用场景 | |------|----------|--------|------------|----------| | ETL 中转 | 低 | 分钟级延迟 | 中等 | 历史数据分析 | | 第三方插件 | 中 | 实时 | 高 | 技术探索型项目 | | 定制开发 | 高 | 实时 | 高 | 企业级定制需求 | 建议优先评估数据实时性要求和团队技术栈,中小规模场景推荐 **方案1 + Grafana** 组合。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CnosDB

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值