Apache Doris技术博客:社区精选文章

Apache Doris技术博客:社区精选文章

【免费下载链接】doris Apache Doris is an easy-to-use, high performance and unified analytics database. 【免费下载链接】doris 项目地址: https://gitcode.com/gh_mirrors/dori/doris

为什么选择Apache Doris?

Apache Doris是一款易用、高性能、实时的分析型数据库,基于MPP架构,以极速和易用性著称。它在海量数据下仅需亚秒级响应时间即可返回查询结果,不仅支持高并发点查询场景,还能支持高吞吐复杂分析场景。

Apache Doris架构

核心优势

  • 易用性:仅需两个进程,无其他依赖;在线集群扩容,自动副本恢复;兼容MySQL协议,使用标准SQL。
  • 高性能:通过列式存储引擎、现代MPP架构、向量化查询引擎、预聚合物化视图和数据索引,实现低延迟、高吞吐查询的极致性能。
  • 统一单一:单一系统可支持实时数据服务、交互式数据分析和离线数据处理场景。
  • 联邦查询:支持Hive、Iceberg、Hudi等数据湖以及MySQL、Elasticsearch等数据库的联邦查询。
  • 多种数据导入方式:支持从HDFS/S3批量导入,从MySQL Binlog/Kafka流导入;支持通过HTTP接口微批写入,通过JDBC的Insert实时写入。
  • 丰富生态:Spark通过Spark-Doris-Connector读写Doris;Flink-Doris-Connector支持Flink CDC实现数据精确一次写入Doris;提供DBT Doris Adapter用于数据转换。

快速入门指南

文档资源

所有文档:Docs

下载与安装

编译步骤

# 克隆仓库
git clone https://gitcode.com/gh_mirrors/dori/doris.git
cd doris

# 编译
./build.sh

核心技术解析

存储引擎

Doris采用列式存储引擎,按列对数据进行编码、压缩和读取。这使得压缩率非常高,并大大减少了无关数据扫描,从而更有效地利用IO和CPU资源。Doris支持多种索引结构以最小化数据扫描:

  • 排序复合键索引:用户最多可指定三列形成复合排序键。这能有效裁剪数据,更好地支持高并发报表场景。
  • MIN/MAX索引:对数值类型的等值和范围查询有有效的过滤作用。
  • 布隆过滤器:在高基数列的等值过滤和裁剪中非常有效
  • 倒排索引:支持对任意字段的快速搜索。

查询引擎

Doris在查询引擎中采用MPP模型,实现节点间和节点内的并行执行。它还支持多个大表的分布式shuffle join,以处理复杂查询。

Query Engine

Doris查询引擎是向量化的,所有内存结构都按列格式布局。这可以大大减少虚函数调用,提高缓存命中率,并有效利用SIMD指令。在宽表聚合场景中,Doris的性能比非向量化引擎高出5-10倍。

Doris query engine

社区精选案例

应用场景

Apache Doris适用于多种场景,包括报表分析、即席查询、统一数据仓库和数据湖查询加速。在Apache Doris上,用户可以构建各种应用,如用户行为分析、AB测试平台、日志检索分析、用户画像分析和订单分析等。

Doris应用场景

典型用户案例

  • 京东:用于广告报表,每天接收100亿行数据,处理超过10,000 QPS,99%查询延迟为150毫秒。
  • 小米:基于Doris构建了增长分析平台(Growth Analytics,GA),利用用户行为数据进行业务增长分析,平均查询延迟为10秒,95%查询延迟在30秒以内,每天处理数万SQL查询。
  • 海底捞:使用Doris构建了统一数据仓库,取代了由Apache Spark、Apache Hive、Apache Kudu、Apache HBase和Apache Phoenix组成的旧复杂架构。

社区贡献指南

如何参与

初次来到Doris社区,您可以:

贡献方式

参与Doris项目并为其作出贡献的方法有很多:代码实现、测试编写、流程工具改进、文档完善等等。任何贡献我们都会非常欢迎,并将您加入贡献者列表。

提交PR步骤

  1. Fork代码库到您的项目空间
  2. 创建新分支进行开发
  3. 将源项目添加为upstream
  4. 提交PR

详细提交PR的方式可以参考文档Pull Request。

版本更新动态

最新版本

🎉 Version 2.1.4已发布。通过TPC-DS 1TB测试证明,开箱即用的查询性能提升100%,增强的数据湖分析比Trino和Spark快4-6倍,新增Variant类型和一套分析函数支持半结构化数据分析,异步物化视图用于查询加速,优化大规模实时写入,以及更好的工作负载管理,包括稳定性和运行时SQL资源跟踪。

查看Release Notes了解更多详情。

稳定版本

🎉 Version 2.0.12现已发布!这个完全进化且稳定的版本已准备好供所有用户升级。查看Release Notes了解更多详情。

加入社区

邮件列表

邮件列表是Apache社区最认可的交流形式。如何Subscribe Mailing Lists

联系方式

名称范围订阅取消订阅归档
dev@doris.apache.org与开发相关的讨论SubscribeUnsubscribeArchives

其他渠道

总结

Apache Doris作为一款高性能的分析型数据库,正受到越来越多企业的青睐。其简单易用、高性能、统一架构等特点,使其成为实时数据分析的理想选择。无论您是数据分析师、数据工程师还是开发人员,都可以通过本文档快速入门Doris,并利用其强大功能解决实际业务问题。

立即开始您的Doris之旅,体验极速数据分析的魅力!

【免费下载链接】doris Apache Doris is an easy-to-use, high performance and unified analytics database. 【免费下载链接】doris 项目地址: https://gitcode.com/gh_mirrors/dori/doris

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值