http://www.blogjava.net/pengpenglin/archive/2009/03/19/206796.html
【1】方法一:通过dbms_random.random
select
*
from
(
select
*
from
largetable
order
by
dbms_random.random)
where
rownum
<=
20000
;
【2】方法二:通过dbms_random.value
select
*
from
(
select
*
from
largetable
order
by
dbms_random.value)
where
rownum
<=
20000
;
【3】方法三:通过采样表扫描
select
*
from
(
select
*
from
largetablesample(
10
))
where
rownum
<=
20000
;
下面我们通过实践来比较这3种方法的效率,首先我们创建一个包含有10W条记录的表用于实验:
create
table
LARGETABLE
(
ID
NUMBER
not
null
primary
key
,
BIRTHDAYDATE
not
null
)
接下来我们插入10W条数据
create
or
replace
procedure
random_insert
as
i
number
;
startDatedate:
=
sysdate;
begin

for
i
in
1
..
100000
loop
insert
into
largetable
values
(i,startDate
+
1
);
end
loop
commit
;
end
;
在SQL*PLUS下设置显示SQL语句执行时间:set timing on,让后分别运行上述三条语句:
第一个的执行时间为 00: 00: 16: 04
第二个的执行时间为 00: 00: 54: 04
第三个的执行时间为 00: 00: 08: 07
从这里我们可以看出在进行数据随机抽取时,采用sample的方法效率是最高的。为了保证每次随机查询的数据尽量不重复,我们可以把sample中的百分比提高一些(例如从10%提高到20%)。
关于Oracle Sample的介绍和用法,请参考eygle他老人家的一篇文章介绍:如何从结果集中获得随机结果
本文介绍了三种在Oracle数据库中实现随机抽取数据的方法:使用dbms_random.random、dbms_random.value及sample采样,并通过实际测试对比了它们的性能。结果显示,sample采样的效率最高。
238

被折叠的 条评论
为什么被折叠?



