
Gartner 曾预计,到 2025 年,80% 寻求扩展数字业务的组织将失败。因为他们没有采用现代方法来进行数据和分析治理。
数据生态是基础架构生态的最重要一环,数据的处理分发与计算,从始至终贯穿了整个数据流通生态。自从数据集中在数据仓库和数据湖中,数据集成已经发生了翻天覆地的变化,我们现在通常称其为现代数据技术栈。但今天的现代,也可能成为明天的过时。
如今,数据治理愈发重要,我们常常发现 80% 的数据业务,其实是靠 20% 的数据在支撑;同样,80% 的数据质量问题,其实是由那 20% 的系统和人产生的。Gartner 曾预计,到 2025 年,80% 寻求扩展数字业务的组织将失败。因为他们没有采用现代方法来进行数据和分析治理。
这其中的数据集成问题引人关注,就不得不提到现代数据技术栈底部的 E (数据抽取 Extract) T (数据转换 Transform) L (数据加载 Load) 和反 ELT 问题。行业预计,未来企业仍会增加他们必须构建和维护的内部连接器数量。今天我们想介绍这样一家企业——Airbyte,一家专注于 ELT 管道的开源数据集成平台。
源起:YC 加速器
2020 年,LiverRamp 和 Michel Tricot (RideOS 前工程总监兼集成负责人),以及 John Lafleur (专注于开发工具和 B2B 服务的连续创业者) 共同创立了 Airbyte。
在早期,这个团队是想专注于营销公司的数据连接,并带着这个想法加入了 YC 加速器,但由于受到疫情等因素影响,他们没能成功。也就在此时,团队决定进行更深入的数据集成,也就是今天我们所见的 Airbyte——面向数据工程,没有局限于特定行业,但提供了用于构建连接器的图形 UI,以及供开发人员挂钩的 API。
团队认为,许多公司都是从构建自己的数据连接器开始,往往最初的效果还不错,但长期下来,他们逐渐会发现复杂性在于做维护,也就是数据整合的成本在维护的投入。即便对于专门构建这些连接器的公司来说,其复杂性也将让它们很难持续跟上连接器的发展,Airbyte 希望成为复制数据的标准。
此后,2020 年 7 月到 9 月,Airbyte 团队在 3 个月内与领先使用 ETL/ELT 工具的客户,进行了 45 次电话沟通,了解到客户即使为这些解决方案付费,也不得不在旁边构建和维护连接器,因为他们要么不受支持,要么支持但不以他们需要的方式。
除此之外,大多数 ETL/ELT 平台都是基于云的,需要将数据移出基础架构。这不仅增加了不必要的成本,还给越来越多公司带来数据隐私和数据安全风险。最后,工程师们还是要自己开发和维护这些连接。正是基于这些调研,使 Airbyte 团队更加相信自己所选的方向。
资本:快速给予支持
Airbyte 获得了越来越多的关注。根据 Airbyte 自己披露的信息,2020 年 11 月的使用量是 10 月的两倍。在 2021 年 2 月之前,Airbyte 实现了每月 100% 的增长,每个月都有 500 次部署。良好的数据也引来了 Accel 的 520 万美元种子轮投资。同年 5 月,仅仅 3 个月后,由 Benchmark 领投的 A 轮 2600 万美元融资完成。
到 2021 年 11 月时,Airbyte 的部署已经达 100k,连接器数量也迅猛增长。此时,Altimeter Cap