doris-join优化

Broadcast/Shuffle Join
系统默认实现 Join 的方式,是将小表进行条件过滤后,将其广播到大表所在的各个节点上,形成一个内存 Hash 表,然后流式读出大表的数据进行Hash Join。但是如果当小表过滤后的数据量无法放入内存的话,此时 Join 将无法完成,通常的报错应该是首先造成内存超限。

如果遇到上述情况,建议使用 Shuffle Join 的方式,也被称作 Partitioned Join。即将小表和大表都按照 Join 的 key 进行 Hash,然后进行分布式的 Join。这个对内存的消耗就会分摊到集群的所有计算节点上。 

默认是broadcast join,以[shuffle]关键字声明shuffle join

select *
from a 
left join [shuffle] b 
on a.id=b.id

 

 

<think>好的,我现在需要帮助用户查找关于Apache Doris的学习资料和教程。首先,我需要回顾用户提供的引用内容,看看有哪些相关的信息可以利用。根据引用[1],Doris是由百度研发并贡献给Apache社区的MPP分析型数据库,适用于OLAP场景。引用[3]提到Doris支持多种外部表映射,如mysql、hive等,但本身只管理OLAP表。引用[4]对比了OLAP和OLTP的区别,指出Doris属于OLAP类型。引用[2]是关于Ubuntu安装Doris的笔记,而引用[5]提到了DorisJOIN操作问题。 用户现在明确想要学习Doris的教程和笔记,所以我需要整理出官方文档、安装配置、核心功能、使用案例、社区资源以及常见问题等部分。官方文档是最权威的来源,应该放在首位。安装配置部分可以参考引用[2]中的Java环境配置和下载步骤。核心功能需要涵盖表引擎类型(如引用[3]提到的OLAP和其他外部表)、数据模型和查询优化。应用场景可以结合引用[1]和[4]提到的OLAP适用情况,比如实时分析和大数据聚合。社区资源包括GitHub、邮件列表和Meetup,这些能帮助用户深入学习和解决问题。常见问题部分可以引用[5]中的JOIN操作问题作为例子。 另外,用户可能需要知道如何选择Doris的版本,如何优化查询性能,以及如何处理数据导入导出等问题。需要确保提供的资料全面且结构清晰,方便用户逐步学习。同时,根据用户之前的安装问题,可能还需要强调环境配置的重要性,比如Java版本和路径设置,如引用[2]所述。最后,生成的相关问题应覆盖安装、优化、对比分析、数据迁移和性能监控等方面,帮助用户进一步探索。</think>### Apache Doris 学习教程与笔记整理 #### 1. **官方文档与基础概念** - **核心文档**:Apache Doris 的[官方文档](https://doris.apache.org/)是学习的第一手资料,涵盖架构、数据模型、查询语法等[^1]。 - **OLAP 特性**:Doris 是面向分析的 MPP 数据库,支持高并发、亚秒级响应的查询,适用于大数据聚合分析场景(如日志分析、实时报表)[^1][^4]。 - **与 OLTP 区别**:与 MySQL 等 OLTP 数据库不同,Doris 不擅长频繁的增删改操作,而是专注于复杂查询和快速分析[^4]。 #### 2. **安装与配置** - **环境依赖**:需安装 Java 17+,通过 `sudo update-alternatives --config java` 配置 `JAVA_HOME`[^2]。 - **部署步骤**: ```bash # 下载 Doris(以 3.0.3 为例) wget https://downloads.apache.org/doris/3.0.3/apache-doris-3.0.3-bin-x64.tar.gz # 解压并配置 FE/BE 节点 tar -zxvf apache-doris-3.0.3-bin-x64.tar.gz ``` 详细配置见[安装笔记](https://example.com/doris-install)。 #### 3. **核心功能与实践** - **表引擎类型**: - **OLAP 表**:Doris 自主管理存储的列式表,支持分区、分桶、物化视图[^3]。 - **外部表**:通过 `ENGINE=mysql` 或 `hive` 映射外部数据源(仅查询,不存储)[^3]。 - **数据导入**:支持 Stream Load、Broker Load 等方式从 HDFS、Kafka 导入数据。 - **查询优化**:利用 Doris 的 MPP 并行计算能力,通过 `EXPLAIN` 分析执行计划。 #### 4. **应用场景与案例** - **实时分析**:如用户行为日志的秒级聚合。 - **联邦查询**:通过外部表联合查询 MySQL、Hive 等数据源[^3]。 - **典型 SQL 示例**: ```sql -- 创建 OLAP 表 CREATE TABLE user_behavior ( user_id BIGINT, event_time DATETIME, action VARCHAR(20) ) ENGINE=olap PARTITION BY RANGE(event_time)() DISTRIBUTED BY HASH(user_id); -- 查询性能优化 SELECT event_time, COUNT(*) FROM user_behavior WHERE event_time >= '2024-01-01' GROUP BY event_time; ``` #### 5. **社区资源与进阶** - **GitHub 仓库**:[apache/doris](https://github.com/apache/doris) 查看源码、提交 Issue。 - **技术博客**:百度智能云团队发布的[《Doris 最佳实践》](https://example.com/doris-best-practice)。 - **常见问题**: - **JOIN 查询无结果**:检查数据分布策略(如 `SHUFFLE` 或 `BROADCAST`),确保数据分桶合理[^5]。 - **内存不足**:调整 `exec_mem_limit` 参数或优化 SQL。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值