起源发展
Apache Doris是一款开源的、面向实时分析的分布式MPP(大规模并行处理)数据库系统,其前身是百度Palo项目。
- 2012年为了满足数据量快速增长和实时分析的迫切需求,百度开始着手研发Palo;
- 2017年将其捐赠给Apache基金会并更名为Doris, 之后进入Apache孵化器,迅速吸引了包括美团、京东、小米等互联网企业的关注,在架构和能力上获得了非常大的改进,支持数千节点级的扩展,引入向量化执行引擎,TPC-H性能提升3-5倍,并实现了存算分离架构原型;
- 2022年正式毕业成为顶级项目,并于2023年发布2.0版本,支持事务型分析能力。
核心特点
作为新一代实时分析型数据库,Doris具有以下的核心技术特点,这些特性共同构成了其在OLAP领域的核心竞争力。
- 极速分析能力
Doris采用MPP并行计算框架,查询任务可自动拆分为多个子任务,在后端节点并行执行实现线性扩展。支持列式存储引擎和向量化执行引擎,基于SIMD指令集的批量处理模式,LLVM动态编译优化,关键算子性能提升3-5倍。
- 实时分析能力
Doris具有高效的更新能力,主键模型支持UPSERT操作和部分列更新技术,避免全行重写开销,Kafka的实时流摄入能够将延时控制毫秒级,通过预聚合Rollup自动匹配查询和增量刷新机制,物化视图能够捕获数据秒级变化,实现实时查询。
| 特性 | Doris | Hadoop生态(Hive+Spark) |
|---|
Apache Doris:新一代实时数仓核心设施

最低0.47元/天 解锁文章
7170

被折叠的 条评论
为什么被折叠?



