Teradata 之top n与sample n

本文介绍了Teradata中获取样本数据的两种方式:TOP N和SAMPLE N。TOP N在有Order By时需先排序,无Order By时涉及全AMP收集;SAMPLE N则进行全表扫描并采取 Sampling 方法。性能上,小数据量时TOP N更快,大数据量时SAMPLE N更快。通过两个查询解释展示了它们在执行计划上的差异。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Teradata取n条样本数据的方法有两种:

select top x * from table;
select * from table sample n;

那么二者有什么区别呢?说明如下:

TOP N
如果有Order By关键字首先要对数据库的数据进行排序,然后获取N条数据或者抽样比率为N;
如果没有Order By关键字,要做一次STAT FUNCTION的全AMP收集,然后选择某一个或者几个AMP 来抽取数据。

Sample N
首先要对数据库的数据进行全表扫描,然后获取N数据;
采用的是Sampling的形式。


性能比较:
当数据量比较小的时候,TOP N的速度要比Sample的速度快;
当数据量比较大的时候,Sample N的速度要比TOP的速度快。

测试:

Explain select top 10 * from PD_PORTAL.TOPIC_COMP_DETAIL

1) First, we lock a distinct PD_PORTAL."pseudo table" for read on a
RowHash to prevent global deadlock for PD_PORTAL.TOPIC_COMP_DETAIL.
2) Next, we lock PD_PORTAL.TOPIC_COMP_DETAIL for read.
3) We do an all-AMPs STAT FUNCTION step from
PD_PORTAL.TOPIC_COMP_DETAIL by way of an all-rows scan with no
residual co

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值