最近碰到了一个要从数据库随机去记录的需求, 以前没碰到过, 搜索了一下. 现在来总结一下:
1. 一个比较笨的方法, 数据量大可能性能不怎么好, 利用dbms_random.
dbms_random.value: 返回一个0-1的随机数
dbms_random.value(x, y): 返回一个100-200的随机数
随机返回一条记录:
select * from (select * from table order by dbms_random.value) where rownum= 1;
2. 利用sample(百分比),采用SAMPLE也是一种解决方法,不过还不是很好,主要是返回的记录分布不均匀,要 么是靠表前面的一些,要么是不返回记录。
1: 选择10%的记录
select * from table sample(10)
另外:
根据数据块选择1%的记录
select * from t1 sample block(1)
select * from t1 sample block(1)
使用数据块选择与使用记录行选择的区别:使用数据块选择表示样本的采集是基于数据块采集的,也就是说样本如果一个数据块被采集为样本,则数据块里的记录全部都是样本
样本统计是基于统计学采集的,是有概率问题,不一定完全准确,如你要取50%的记录,但实际可能返回给你49%的记录集,也可能返回给你51%的记录集
例如
如果表T1有数据块B1,B2
B1有记录R1,R2,R3,R4,R5
B2有记录R6,R7,R8
B1有记录R1,R2,R3,R4,R5
B2有记录R6,R7,R8