
Doris
文章平均质量分 93
Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。
G皮T
计算机科学与技术本科,计算机技术硕士,现任职于某互联网公司,担任测试开发工程师。优快云云原生领域优质创作者、博客专家。书籍《大数据测试开发工程师的第一本书》正在积极撰写中,敬请期待。微信公众号:大数据与AI实验室。《Java 百“练”成钢》连载中,欢迎关注!
展开
-
【大数据】Doris 的集群规划和环境准备
Doris 作为一款开源的 MPP 架构 OLAP 数据库,能够运行在绝大多数主流的商用服务器上。为了能够充分运用 MPP 架构的并发优势,以及 Doris 的高可用特性,我们建议 Doris 的部署遵循以下需求。原创 2023-12-16 17:06:23 · 1779 阅读 · 0 评论 -
【大数据】Doris 架构
Doris 的架构很简洁,只设 FE(Frontend)、BE(Backend)两种角色、两个进程,不依赖于外部组件,方便部署和运维,FE、BE 都可线性扩展。原创 2023-12-12 23:41:05 · 808 阅读 · 0 评论 -
【大数据】Doris:基于 MPP 架构的高性能实时分析型数据库
Apache Doris 是一个基于 MPP(Massively Parallel Processing,大规模并行处理)架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。原创 2023-08-26 23:57:50 · 2452 阅读 · 2 评论 -
【大数据 - Doris 实践】数据表的基本使用(一):基本概念、创建表
在 Doris 的存储引擎中,用户数据首先被划分成若干个分区(Partition),划分的规则通常是按照用户指定的分区列进行范围划分,比如按时间划分。而在每个分区内,数据被进一步的按照 Hash 的方式分桶,分桶的规则是要找用户指定的分桶列的值进行 Hash 后分桶。每个分桶就是一个数据分片(Tablet),也是数据划分的最小逻辑单元。原创 2023-10-16 23:46:00 · 1646 阅读 · 0 评论 -
【大数据 - Doris 实践】数据表的基本使用(二):数据划分
Doris 支持两层的数据划分。第一层是 Partition,支持 Range 和 List 的划分方式。第二层是 Bucket(Tablet),仅支持 Hash 的划分方式。也可以仅使用一层分区。使用一层分区时,只支持 Bucket 划分。原创 2023-10-17 21:59:42 · 648 阅读 · 0 评论 -
【大数据 - Doris 实践】数据表的基本使用(三):数据模型
Aggregate 模型可以通过预聚合,极大地降低聚合查询时所需扫描的数据量和查询的计算量,非常适合有固定模式的报表类查询场景。但是该模型对 count(*) 查询很不友好。同时因为固定了 Value 列上的聚合方式,在进行其他类型的聚合查询时,需要考虑语意正确性。原创 2023-10-17 23:56:56 · 1032 阅读 · 0 评论 -
【大数据 - Doris 实践】数据表的基本使用(四):动态分区
在某些使用场景下,用户会将表按照天进行分区划分,每天定时执行例行任务,这时需要使用方手动管理分区,否则可能由于使用方没有创建分区导致数据导入失败,这给使用方带来了额外的维护成本。通过动态分区功能,用户可以在建表时设定动态分区的规则。FE 会启动一个后台线程,根据用户指定的规则创建或删除分区。用户也可以在运行时对现有规则进行变更。原创 2023-10-22 12:29:09 · 1414 阅读 · 0 评论 -
【大数据 - Doris 实践】数据表的基本使用(五):ROLLUP
在 Doris 中,我们将用户通过建表语句创建出来的表称为 Base 表(Base Table)。Base 表中保存着按用户建表语句指定的方式存储的基础数据。在 Base 表之上,我们可以创建任意多个 ROLLUP 表。这些 ROLLUP 的数据是基于 Base 表产生的,并且在物理上是独立存储的。ROLLUP 表的基本作用,在于在 Base 表的基础上,获得更粗粒度的聚合数据。原创 2023-10-27 22:35:06 · 1003 阅读 · 0 评论 -
【大数据】Doris 构建实时数仓落地方案详解(一):实时数据仓库概述
数据仓库的概念可以追溯到 20 世纪 80 年代,当时 IBM 的研究人员提出了商业数据仓库的概念。数据仓库概念的提出,是为了解决和数据流相关的各种问题,特别是多重数据复制带来的高成本问题。原创 2023-09-18 22:49:55 · 3513 阅读 · 0 评论 -
【大数据】Doris 构建实时数仓落地方案详解(二):Doris 核心功能解读
Apache Doris 是由百度研发并开源的数据库项目。 Doris 2008 年开始在百度内部立项,经历了五个大版本的迭代后于 2017 年开源,2018 年进入 Apache 基金会孵化项目。2022 年 4 月 18 日正式发布 Doris 1.0,2022 年 6 月 16 日正式毕业,成为 Apache 软件基金会的顶级项目。原创 2023-09-18 23:07:19 · 3680 阅读 · 2 评论 -
【大数据】Doris 构建实时数仓落地方案详解(三):Doris 实时数仓设计
有时候我们还会在 DWS 层的基础上增加 DWT(Data Warehouse Topic),作为宽表,但是我们也可以将这一层保留在 DWS 中,作为 DWS 层的一部分。DM 层是数据集市层,在 OLAP 查询不理想的情况下,DM 层是需要大力建设的。现在技术发展了,OLAP 查询不再是瓶颈,我们将建设的重心下移到提供一致性对外数据服务的 DWS 层,DM 层的开发工作逐步减少。原创 2023-09-19 23:39:03 · 8558 阅读 · 5 评论