简述Teradata连接策略的类型和内容

本文详细介绍了Teradata的四种连接策略:Merge Join、Nested Join、Hash Join和Exclusion Join。Merge Join依据连接列是否为UPI进行数据分布;Nested Join在UPI/USI上进行精确匹配;Hash Join利用内存中的哈希表加速连接,尤其适用于大表;Exclusion Join主要用于处理NOT IN、EXCEPT等操作,忽略特定条件的行。每种策略都有其适用场景和性能特点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、MergeJoin(归并连接)

Merge Join中被连接的行必须在同一AMP中。如果被连接的行不在同一AMP中,Teradata会基于where子句中涉及的列来重新分布数据或者复制spool中的数据。

如果被连接的两个表有相同的primary index,则records(记录)会在相同的AMP中,就不需要重新分布记录了。

Merge Join在下列4中情况下会发生重分布(redistribution):

情况1:如果连接的列是UPI = UPI,则被连接的列在相同AMP中,不需要重分布。这是最快速高效的join策略

情况2:如果连接的列是UPI = Non Index column,则必须根据与第一个表的关系将第二个表中的记录重新分布到AMP

情况3:如果连接的列是Non Index column = Non Index column,则两个表都必须重新分布,使皮匹配的数据位于同一AMP上。由于两个表的完全重新分布遍历所有AMP,因此这种策略非常耗时。

情况4:对于发生在Primary Index上的join,如果参照表(join中的第二个表)很小,则这张表被拷贝到所有AMP上。

2、Nested Join(嵌套连接)

Nested Join是Optimizer推荐的最精确连接策略的一种。Nested Join工作在Join语句中使用的UPI/USI上,并用于从第一个表中检索单条记录。然后从第二个表中根据join中使用的 index(primary或secondary)查询出匹配记录并返回匹配结果。

3、Hash Join(哈希连接)

Hash Join是Optimizer基于连接条件建议的策略之一。在功能上,Hash Join与Merge Join紧密相关。Merge Join中连接发生在同一AMP中。Hash Join中,在同一AMP中的一个或两个表完全在内存中。AMP将小表保持在其内存中用于发生在Row hash上的join。

Hash Join的优势:

1)比Merge join更快速,因为大表不需要排序。

2)由于join发生的两张表一个在APM内存中,一个在不需排序的spool中,因此join速度非常快。

4、Exclusion Join

当查询语句中包含以下关键字时,Optimizer建议使用Exclusion Join:

-NOT IN

-EXCEPT

-MINUS

-SET 差集操作

示例:

Select EMP.Ename , DEP.Deptno, EMP.salary  

from  

EMPLOYEE EMP  

WHERE EMP.Enum NOT IN  

( Select Enum from  

DEPARTMENT DEP  

where Enum is NOT NULL );  

请确保添加一个额外的WHERE过滤“where Enum is NOT NULL ”,因为在NOT IN中使用NULL不会返回结果。

对NOT IN查询的Exclusion Join有3种情况:

情况1:与NOT IN子查询结果匹配的行将被忽略

情况2:不匹配的将被使用

情况3:NOT IN中的任何未知结果将被忽略(NULL是这种情况的一个典型例子)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值