Databricks 成立于 2013 年,总部位于美国旧金山,由伯克利大学 AMP 实验室开源处理引擎系统 Apache Spark 的多位创始人联合创立,包括 Apache Spark 之父 Matei Zaharia 和 Ion Stoica 教授,他们敏锐的捕捉到 Hadoop 生态在实时计算和复杂分析场景中的局限性,决定将 Spark 这一颠覆性的分布式计算框架商业化。
发展历程
Databricks 的发展历程可谓是一路狂飙,从初创公司迅速成长为超级独角兽,堪称硅谷传奇。
- 凭借 Spark 的技术红利, 在创业早期就获得了资本的青睐,公司在 A 轮获得 a16z 领投的 1400 万美元,B 轮 3300 万美元融资后估值突破 2 亿美元。2019 年 F 轮 4 亿美元融资时,估值已飙升至 66.67 亿美元,成为云计算领域的新星;
- 随着 Lakehouse 概念被市场广泛接受,Databricks 在 2021 年 G 轮融资 10 亿美元,估值跃升至 280 亿美元;同年 H 轮 16 亿美元融资后,估值突破 380 亿,成为全球估值最高的云计算公司之一;
- 2024 年 12 月由Thrive Capital领投,多家知名投资机构参与,Databricks 宣布完成 100 亿美元J 轮融资,成为历史上最大的风险投资轮之一,同时也超越 OpenAI 成为年度融资王。这笔融资也使得 Databricks 估值达到 620 亿美元,领先于其主要竞争对手 Snowflake (笔者注:2024 年底 Snowflake 股价约 170 美元,截止 2025 年 6 月其股价已大幅上涨到 213 美元,市值 713 亿)。
从 2019 年 66 亿到 2024 年 620 亿,5 年估值增长 9.4 倍,年均复合增长率超 50%。硬币的另一面是,尽管吸引了全球顶尖的投资者,但伴随着公司扩张的是巨额的研发投入和收购支出,因此直到现在 Databricks 仍然没有实现正向的自由现金流。虽然当前烧钱模式推动了公司发展,如何在未来实现盈利,将是投资者关注的焦点。
技术壁垒
之所以成为资本市场的宠儿,和 Databricks 强大的技术壁垒密不可分。
- 2014 年推出首个云端产品 Databricks Cloud,通过自动化集群管理和 Jupyter 风格的笔记本画面,让企业用户首次体验到“一键式”大数据分析的便捷。作为 Spark 的原生平台,Databricks 不断优化其性能与功能,通过引入动态资源调度和 GPU 加速,实现万亿级数据关联分析耗时从小时级缩短到分钟级。平台还整合 TensorFlow、PyTorch 等主流框架,通过 MLFlow 提供端到端的机器学习流水线管理,大幅提升模型训练效率;
- 真正奠定其行业地位的是 2020 年推出的湖仓一体(Lakehouse)架构,数据湖(低成本存储)+ 数据仓库(高性能分析)的融合架构,Delta Lake 是实现这一架构的核心开源组件。通过 Delta Lake 的事务日志和优化引擎,实现毫秒级查询响应和 PB 级数据的实时更新,同时兼容 Parquet、JSON 等多种格式。这一创新将数据湖的灵活性和数据仓库的高性能深度融合,彻底解决了传统数据湖数据质量差、查询效率低的痛点;
- ai 原生的深度融合也是 Databricks 持续获得资本青睐的重要原因。2023 年收购生成式 AI 公司 MosaicML 后,Databricks 推出企业级大模型训练平台,并在 2024 年发布开源模型 DBRX – 这一被誉为 “最强大开源 AI” 的模型在多项基准测试中超越现有开源方案。结合与 NVIDIA 合作开发的 CUDA 加速功能,Databricks 平台可支持千亿参数模型的分布式训练,大大缩短模型训练周期。
IDC 报告指出,Databricks 在湖仓一体市场占有率达 38%,远超第二名 15 个百分点。从 Spark 的星星之火到湖仓一体的燎原之势,Databricks 构建的企业级大数据处理平台,正在重新定义企业数据价值的释放方式,其发展轨迹也将成为未来十年科技行业的重要风向标。
写在最后
大数据领域的技术迭代非常快,从批处理到实时计算再到湖仓一体,其中涌现出一大波优秀的产品和公司。这些产品在开源社区和商业化公司的持续推动下不断进化,至今仍然活跃在市场上,也有一些产品在新技术的冲击下逐渐没落,慢慢的淡出了主流市场。
而一款成功的开源产品离不开其背后强大的商业化公司,究其根本原因,商业化公司给开源产品提供了绝佳的试错环境和真实案例,开源产品在真实的需求中得到验证和完善,从而快速的成长起来。国内的大企业也积极参与开源产品的商业化开发,期间也涌现出了诸如 Flink (阿里巴巴),Doris (飞轮科技),TiDB (PingCAP) 等优秀的公司和产品。只是这些产品目前的估值和国外独角兽还有相当的差距,那么我们的开源商业化公司可以从 Databricks 的成功学习到什么呢?
公众号:数据最前线