Apache Doris技术博客:社区精选文章
为什么选择Apache Doris?
Apache Doris是一款易用、高性能、实时的分析型数据库,基于MPP架构,以极速和易用性著称。它在海量数据下仅需亚秒级响应时间即可返回查询结果,不仅支持高并发点查询场景,还能支持高吞吐复杂分析场景。

核心优势
- 易用性:仅需两个进程,无其他依赖;在线集群扩容,自动副本恢复;兼容MySQL协议,使用标准SQL。
- 高性能:通过列式存储引擎、现代MPP架构、向量化查询引擎、预聚合物化视图和数据索引,实现低延迟、高吞吐查询的极致性能。
- 统一单一:单一系统可支持实时数据服务、交互式数据分析和离线数据处理场景。
- 联邦查询:支持Hive、Iceberg、Hudi等数据湖以及MySQL、Elasticsearch等数据库的联邦查询。
- 多种数据导入方式:支持从HDFS/S3批量导入,从MySQL Binlog/Kafka流导入;支持通过HTTP接口微批写入,通过JDBC的Insert实时写入。
- 丰富生态:Spark通过Spark-Doris-Connector读写Doris;Flink-Doris-Connector支持Flink CDC实现数据精确一次写入Doris;提供DBT Doris Adapter用于数据转换。
快速入门指南
文档资源
所有文档:Docs
下载与安装
- 所有发布版本和二进制版本:Download
- 编译指南:Compilation
- 安装部署:Installation and deployment
编译步骤
# 克隆仓库
git clone https://gitcode.com/gh_mirrors/dori/doris.git
cd doris
# 编译
./build.sh
核心技术解析
存储引擎
Doris采用列式存储引擎,按列对数据进行编码、压缩和读取。这使得压缩率非常高,并大大减少了无关数据扫描,从而更有效地利用IO和CPU资源。Doris支持多种索引结构以最小化数据扫描:
- 排序复合键索引:用户最多可指定三列形成复合排序键。这能有效裁剪数据,更好地支持高并发报表场景。
- MIN/MAX索引:对数值类型的等值和范围查询有有效的过滤作用。
- 布隆过滤器:在高基数列的等值过滤和裁剪中非常有效
- 倒排索引:支持对任意字段的快速搜索。
查询引擎
Doris在查询引擎中采用MPP模型,实现节点间和节点内的并行执行。它还支持多个大表的分布式shuffle join,以处理复杂查询。

Doris查询引擎是向量化的,所有内存结构都按列格式布局。这可以大大减少虚函数调用,提高缓存命中率,并有效利用SIMD指令。在宽表聚合场景中,Doris的性能比非向量化引擎高出5-10倍。

社区精选案例
应用场景
Apache Doris适用于多种场景,包括报表分析、即席查询、统一数据仓库和数据湖查询加速。在Apache Doris上,用户可以构建各种应用,如用户行为分析、AB测试平台、日志检索分析、用户画像分析和订单分析等。

典型用户案例
- 京东:用于广告报表,每天接收100亿行数据,处理超过10,000 QPS,99%查询延迟为150毫秒。
- 小米:基于Doris构建了增长分析平台(Growth Analytics,GA),利用用户行为数据进行业务增长分析,平均查询延迟为10秒,95%查询延迟在30秒以内,每天处理数万SQL查询。
- 海底捞:使用Doris构建了统一数据仓库,取代了由Apache Spark、Apache Hive、Apache Kudu、Apache HBase和Apache Phoenix组成的旧复杂架构。
社区贡献指南
如何参与
初次来到Doris社区,您可以:
- 关注Doris GitHub 代码库
- 订阅我们的邮件列表;
- 加入Doris的Slack
贡献方式
参与Doris项目并为其作出贡献的方法有很多:代码实现、测试编写、流程工具改进、文档完善等等。任何贡献我们都会非常欢迎,并将您加入贡献者列表。
提交PR步骤
- Fork代码库到您的项目空间
- 创建新分支进行开发
- 将源项目添加为upstream
- 提交PR
详细提交PR的方式可以参考文档Pull Request。
版本更新动态
最新版本
🎉 Version 2.1.4已发布。通过TPC-DS 1TB测试证明,开箱即用的查询性能提升100%,增强的数据湖分析比Trino和Spark快4-6倍,新增Variant类型和一套分析函数支持半结构化数据分析,异步物化视图用于查询加速,优化大规模实时写入,以及更好的工作负载管理,包括稳定性和运行时SQL资源跟踪。
查看Release Notes了解更多详情。
稳定版本
🎉 Version 2.0.12现已发布!这个完全进化且稳定的版本已准备好供所有用户升级。查看Release Notes了解更多详情。
加入社区
邮件列表
邮件列表是Apache社区最认可的交流形式。如何Subscribe Mailing Lists
联系方式
| 名称 | 范围 | 订阅 | 取消订阅 | 归档 |
|---|---|---|---|---|
| dev@doris.apache.org | 与开发相关的讨论 | Subscribe | Unsubscribe | Archives |
其他渠道
- Slack频道 - Join the Slack
- Twitter - Follow @doris_apache
总结
Apache Doris作为一款高性能的分析型数据库,正受到越来越多企业的青睐。其简单易用、高性能、统一架构等特点,使其成为实时数据分析的理想选择。无论您是数据分析师、数据工程师还是开发人员,都可以通过本文档快速入门Doris,并利用其强大功能解决实际业务问题。
立即开始您的Doris之旅,体验极速数据分析的魅力!
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



