Databricks 是如何成长为 620亿独角兽的

原创已于 2025-06-23 16:55:53 修改 · 1.1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#开源 #大数据

于 2025-06-23 16:50:12 首次发布

数据库资讯专栏收录该内容

10 篇文章

订阅专栏

Databricks 成立于 2013 年，总部位于美国旧金山，由伯克利大学 AMP 实验室开源处理引擎系统 Apache Spark 的多位创始人联合创立，包括 Apache Spark 之父 Matei Zaharia 和 Ion Stoica 教授，他们敏锐的捕捉到 Hadoop 生态在实时计算和复杂分析场景中的局限性，决定将 Spark 这一颠覆性的分布式计算框架商业化。

发展历程

Databricks 的发展历程可谓是一路狂飙，从初创公司迅速成长为超级独角兽，堪称硅谷传奇。

凭借 Spark 的技术红利，在创业早期就获得了资本的青睐，公司在 A 轮获得 a16z 领投的 1400 万美元，B 轮 3300 万美元融资后估值突破 2 亿美元。2019 年 F 轮 4 亿美元融资时，估值已飙升至 66.67 亿美元，成为云计算领域的新星；
随着 Lakehouse 概念被市场广泛接受，Databricks 在 2021 年 G 轮融资 10 亿美元，估值跃升至 280 亿美元；同年 H 轮 16 亿美元融资后，估值突破 380 亿，成为全球估值最高的云计算公司之一；
2024 年 12 月由Thrive Capital领投，多家知名投资机构参与，Databricks 宣布完成 100 亿美元J 轮融资，成为历史上最大的风险投资轮之一，同时也超越 OpenAI 成为年度融资王。这笔融资也使得 Databricks 估值达到 620 亿美元，领先于其主要竞争对手 Snowflake (笔者注：2024 年底 Snowflake 股价约 170 美元，截止 2025 年 6 月其股价已大幅上涨到 213 美元，市值 713 亿）。

从 2019 年 66 亿到 2024 年 620 亿，5 年估值增长 9.4 倍，年均复合增长率超 50%。硬币的另一面是，尽管吸引了全球顶尖的投资者，但伴随着公司扩张的是巨额的研发投入和收购支出，因此直到现在 Databricks 仍然没有实现正向的自由现金流。虽然当前烧钱模式推动了公司发展，如何在未来实现盈利，将是投资者关注的焦点。

技术壁垒

之所以成为资本市场的宠儿，和 Databricks 强大的技术壁垒密不可分。

2014 年推出首个云端产品 Databricks Cloud，通过自动化集群管理和 Jupyter 风格的笔记本画面，让企业用户首次体验到“一键式”大数据分析的便捷。作为 Spark 的原生平台，Databricks 不断优化其性能与功能，通过引入动态资源调度和 GPU 加速，实现万亿级数据关联分析耗时从小时级缩短到分钟级。平台还整合 TensorFlow、PyTorch 等主流框架，通过 MLFlow 提供端到端的机器学习流水线管理，大幅提升模型训练效率；

真正奠定其行业地位的是 2020 年推出的湖仓一体(Lakehouse)架构，数据湖（低成本存储）+ 数据仓库（高性能分析）的融合架构，Delta Lake 是实现这一架构的核心开源组件。通过 Delta Lake 的事务日志和优化引擎，实现毫秒级查询响应和 PB 级数据的实时更新，同时兼容 Parquet、JSON 等多种格式。这一创新将数据湖的灵活性和数据仓库的高性能深度融合，彻底解决了传统数据湖数据质量差、查询效率低的痛点；
ai 原生的深度融合也是 Databricks 持续获得资本青睐的重要原因。2023 年收购生成式 AI 公司 MosaicML 后，Databricks 推出企业级大模型训练平台，并在 2024 年发布开源模型 DBRX – 这一被誉为 “最强大开源 AI” 的模型在多项基准测试中超越现有开源方案。结合与 NVIDIA 合作开发的 CUDA 加速功能，Databricks 平台可支持千亿参数模型的分布式训练，大大缩短模型训练周期。

IDC 报告指出，Databricks 在湖仓一体市场占有率达 38%，远超第二名 15 个百分点。从 Spark 的星星之火到湖仓一体的燎原之势，Databricks 构建的企业级大数据处理平台，正在重新定义企业数据价值的释放方式，其发展轨迹也将成为未来十年科技行业的重要风向标。

Figure_1_Magic_Quadrant_for_Data_Science_and_Machine_Learning_Platforms.png

写在最后

大数据领域的技术迭代非常快，从批处理到实时计算再到湖仓一体，其中涌现出一大波优秀的产品和公司。这些产品在开源社区和商业化公司的持续推动下不断进化，至今仍然活跃在市场上，也有一些产品在新技术的冲击下逐渐没落，慢慢的淡出了主流市场。

而一款成功的开源产品离不开其背后强大的商业化公司，究其根本原因，商业化公司给开源产品提供了绝佳的试错环境和真实案例，开源产品在真实的需求中得到验证和完善，从而快速的成长起来。国内的大企业也积极参与开源产品的商业化开发，期间也涌现出了诸如 Flink (阿里巴巴)，Doris (飞轮科技)，TiDB (PingCAP) 等优秀的公司和产品。只是这些产品目前的估值和国外独角兽还有相当的差距，那么我们的开源商业化公司可以从 Databricks 的成功学习到什么呢？

公众号：数据最前线