ORACLE 提取N条随机数据

本文介绍Oracle数据库中如何通过sample函数、DBMS_RANDOM包及sys_guid()等方法获取随机数据,并对比不同方法的特点。同时,还提供了其他数据库如SQL Server、MySQL和Access中随机抽取数据的方法。
部署运行你感兴趣的模型镜像

一、Oracle取随机数据 
1、Oracle访问数据的基本方法:
 
1)、全表扫描(Full table Scan):执行全表扫描,Oracle读表中的所有记录,考查每一行是否满足WHERE条件。Oracle顺序的读分配给该表的每一个数据块,且每个数据块Oracle只读一次.这样全表扫描能够受益于多块读. 
  
2)、采样表扫描(sample table scan):扫描返回表中随机采样数据,这种访问方式需要在FROM语句中包含SAMPLE选项或者SAMPLE BLOCK选项. 
  
注:从Oracle8i开始Oracle提供采样表扫描特性 

  
2、使用sample获得随机结果集 
2.1、语法: SAMPLE [ BLOCK ](sample_percent)[ SEED (seed_value) ]  
SAMPLE选项:表示按行采样来执行一个全表扫描,Oracle从表中读取特定百分比的记录,并判断是否满足WHERE子句以返回结果。 
BLOCK: 表示使用随机块例举而不是随机行例举。 
sample_percent:是随机获取一张表中记录的百分比。比如值为10,那就是表中的随机的百分之10的记录。 
               值必须大于等于.000001,小于100。 
SEED:表示从哪条记录返回,类似于预先设定例举结果,因而每次返回的结果都是固定的。该值必须介于0和4294967295之间。 
  
2.2、举例说明 
   创建测试临时表: 

Sql代码  复制代码
  1. SQL>create table zeeno as select * from dba_objects;      
  1. SQL>create table zeeno as select * from dba_objects;      

 
1)、sample(sample_percent):

Sql代码  复制代码
  1. -- 从表zeeno中“全表扫描”随机抽取10%的记录,随机查询5条记录    
  2. SQL>select object_name from zeeno sample(10) where rownum<6;    
  3.   
  4. OBJECT_NAME    
  5. --------------------------------------------------------------------------------    
  6. UET$    
  7. VIEW$    
  8. I_SUPEROBJ2    
  9. TRIGGERCOL$    
  10. I_VIEW1       
  11.                              
  12. SQL&gt; /    
  13.   
  14. OBJECT_NAME    
  15. --------------------------------------------------------------------------------    
  16. I_FILE1    
  17. IND$    
  18. CLU$    
  19. FET$    
  20. I_COBJ#    
  21.     
  1. -- 从表zeeno中“全表扫描”随机抽取10%的记录,随机查询5条记录   
  2. SQL>select object_name from zeeno sample(10) where rownum<6;   
  3.   
  4. OBJECT_NAME   
  5. --------------------------------------------------------------------------------   
  6. UET$   
  7. VIEW$   
  8. I_SUPEROBJ2   
  9. TRIGGERCOL$   
  10. I_VIEW1      
  11.                             
  12. SQL&gt; /   
  13.   
  14. OBJECT_NAME   
  15. --------------------------------------------------------------------------------   
  16. I_FILE1   
  17. IND$   
  18. CLU$   
  19. FET$   
  20. I_COBJ#   
  21.     

 
2)、sample block(sample_percent) 

Sql代码  复制代码
  1. -- 从表zeeno中“采样表扫描”随机抽取10%的记录,随机查询5条记录    
  2. SQL> select object_name from zeeno sample block(10) where rownum<6;    
  3.   
  4. OBJECT_NAME    
  5. --------------------------------------------------------------------------------    
  6. URIFACTORY    
  7. DBMS_XMLGEN    
  8. DBMS_XMLGEN    
  9. DBMS_XMLSTORE    
  10. DBMS_XMLSTORE    
  11.     
  1. -- 从表zeeno中“采样表扫描”随机抽取10%的记录,随机查询5条记录   
  2. SQL> select object_name from zeeno sample block(10) where rownum<6;   
  3.   
  4. OBJECT_NAME   
  5. --------------------------------------------------------------------------------   
  6. URIFACTORY   
  7. DBMS_XMLGEN   
  8. DBMS_XMLGEN   
  9. DBMS_XMLSTORE   
  10. DBMS_XMLSTORE   
  11.     

 

 3)、sample block(sample_percent) seed(seed_value) 

Sql代码  复制代码
  1. -- 使用seed,返回固定的结果集。从表zeeno中“采样表扫描”随机抽取10%的记录,随机查询5条记录。    
  2. SQL> select object_name from zeeno sample(10) seed(10) where rownum<6;    
  3.   
  4. OBJECT_NAME    
  5. --------------------------------------------------------------------------------    
  6. UET$    
  7. I_CON1    
  8. I_FILE2    
  9. FET$    
  10. I_COL1    
  11.   
  12. SQL&gt; select object_name from zeeno sample(10) seed(10) where rownum&lt;6;    
  13.   
  14. OBJECT_NAME    
  15. --------------------------------------------------------------------------------    
  16. UET$    
  17. I_CON1    
  18. I_FILE2    
  19. FET$    
  20. I_COL1    
  21.     
  1. -- 使用seed,返回固定的结果集。从表zeeno中“采样表扫描”随机抽取10%的记录,随机查询5条记录。   
  2. SQL> select object_name from zeeno sample(10) seed(10) where rownum<6;   
  3.   
  4. OBJECT_NAME   
  5. --------------------------------------------------------------------------------   
  6. UET$   
  7. I_CON1   
  8. I_FILE2   
  9. FET$   
  10. I_COL1   
  11.   
  12. SQL&gt; select object_name from zeeno sample(10) seed(10) where rownum&lt;6;   
  13.   
  14. OBJECT_NAME   
  15. --------------------------------------------------------------------------------   
  16. UET$   
  17. I_CON1   
  18. I_FILE2   
  19. FET$   
  20. I_COL1   
  21.     

 

注意以下几点:

1.sample只对单表生效,不能用于表连接和远程表
2.sample会使SQL自动使用CBO
 

 

 

3、使用DBMS_RANDOM包
  DBMS_RANDOM有两种主要的使用方法分别是:DBMS_RANDOM.VALUE()和DBMS_RANDOM.RANDOM

 

3.1、取随机数

Sql代码  复制代码
  1. SQL> select dbms_random.value() from dual;   
  2.     
  3. DBMS_RANDOM.VALUE()   
  4. -------------------   
  5.   0.146123095968043   
  6.     
  7. SQL> select dbms_random.value() from dual;   
  8.     
  9. DBMS_RANDOM.VALUE()   
  10. -------------------   
  11.    0.90175764902345  
  1. SQL> select dbms_random.value() from dual;  
  2.    
  3. DBMS_RANDOM.VALUE()  
  4. -------------------  
  5.   0.146123095968043  
  6.    
  7. SQL> select dbms_random.value() from dual;  
  8.    
  9. DBMS_RANDOM.VALUE()  
  10. -------------------  
  11.    0.90175764902345  

 

Sql代码  复制代码
  1. SQL> select dbms_random.value(1,10) from dual;   
  2.     
  3. DBMS_RANDOM.VALUE(1,10)   
  4. -----------------------   
  5.        9.86601968210438   
  6.     
  7. SQL> select dbms_random.value(1,10) from dual;   
  8.     
  9. DBMS_RANDOM.VALUE(1,10)   
  10. -----------------------   
  11.        3.43475105499398  
  1. SQL> select dbms_random.value(1,10) from dual;  
  2.    
  3. DBMS_RANDOM.VALUE(1,10)  
  4. -----------------------  
  5.        9.86601968210438  
  6.    
  7. SQL> select dbms_random.value(1,10) from dual;  
  8.    
  9. DBMS_RANDOM.VALUE(1,10)  
  10. -----------------------  
  11.        3.43475105499398  

 

 3.2、举例说明

  

Sql代码  复制代码
  1. SQL> select * from (select object_name from zeeno order by dbms_random.random) where rownum<6;   
  2.     
  3. OBJECT_NAME   
  4. --------------------------------------------------------------------------------   
  5. /6dd0fe0e_CertificateCertifica   
  6. /cf5224d7_SunJSSE_a4   
  7. KU$_PARSED_ITEMS   
  8. javax/swing/text/IconView   
  9. oracle/xml/jdwp/XSLJDWPString   
  10.     
  11. SQL> select * from (select object_name from zeeno order by dbms_random.random) where rownum<6;   
  12.     
  13. OBJECT_NAME   
  14. --------------------------------------------------------------------------------   
  15. java/io/ObjectOutputStream$1   
  16. sun/security/krb5/KrbAsReq   
  17. /2d52a21c_Last   
  18. SYS_YOID0000006594$   
  19. /308fbfa1_BeanContextServices  
  1. SQL> select * from (select object_name from zeeno order by dbms_random.random) where rownum<6;  
  2.    
  3. OBJECT_NAME  
  4. --------------------------------------------------------------------------------  
  5. /6dd0fe0e_CertificateCertifica  
  6. /cf5224d7_SunJSSE_a4  
  7. KU$_PARSED_ITEMS  
  8. javax/swing/text/IconView  
  9. oracle/xml/jdwp/XSLJDWPString  
  10.    
  11. SQL> select * from (select object_name from zeeno order by dbms_random.random) where rownum<6;  
  12.    
  13. OBJECT_NAME  
  14. --------------------------------------------------------------------------------  
  15. java/io/ObjectOutputStream$1  
  16. sun/security/krb5/KrbAsReq  
  17. /2d52a21c_Last  
  18. SYS_YOID0000006594$  
  19. /308fbfa1_BeanContextServices  

 

Sql代码  复制代码
  1. SQL> select * from (select object_name from zeeno order by trunc(dbms_random.value(1,3))) where rownum<6;   
  2.     
  3. OBJECT_NAME   
  4. --------------------------------------------------------------------------------   
  5. ICOL$   
  6. C_COBJ#   
  7. PROXY_ROLE_DATA$   
  8. I_OBJ#   
  9. UET$   
  10.     
  11. SQL> select * from (select object_name from zeeno order by trunc(dbms_random.value(1,3))) where rownum<6;   
  12.     
  13. OBJECT_NAME   
  14. --------------------------------------------------------------------------------   
  15. ICOL$   
  16. UNDO$   
  17. I_PROXY_ROLE_DATA$_1   
  18. I_CDEF2   
  19. UET$  
  1. SQL> select * from (select object_name from zeeno order by trunc(dbms_random.value(1,3))) where rownum<6;  
  2.    
  3. OBJECT_NAME  
  4. --------------------------------------------------------------------------------  
  5. ICOL$  
  6. C_COBJ#  
  7. PROXY_ROLE_DATA$  
  8. I_OBJ#  
  9. UET$  
  10.    
  11. SQL> select * from (select object_name from zeeno order by trunc(dbms_random.value(1,3))) where rownum<6;  
  12.    
  13. OBJECT_NAME  
  14. --------------------------------------------------------------------------------  
  15. ICOL$  
  16. UNDO$  
  17. I_PROXY_ROLE_DATA$_1  
  18. I_CDEF2  
  19. UET$  

 

Sql代码  复制代码
  1. SQL> select trunc(dbms_random.value(0, 1000)) randomNum from dual; --(0-1000的整数)   
  2.     
  3.  RANDOMNUM   
  4. ----------   
  5.        790   
  6.     
  7. SQL> select dbms_random.value(0, 1000) randomNum from dual; --(0-1000的浮点数)   
  8.     
  9.  RANDOMNUM   
  10. ----------   
  11. 997.876726  
  1. SQL> select trunc(dbms_random.value(0, 1000)) randomNum from dual; --(0-1000的整数)  
  2.    
  3.  RANDOMNUM  
  4. ----------  
  5.        790  
  6.    
  7. SQL> select dbms_random.value(0, 1000) randomNum from dual; --(0-1000的浮点数)  
  8.    
  9.  RANDOMNUM  
  10. ----------  
  11. 997.876726  

 

4、使用内部函数sys_guid()  

Sql代码  复制代码
  1. SQL>  select * from (select OBJECT_NAME from zeeno order by sys_guid()) where rownum < 6;    
  2.     
  3. OBJECT_NAME   
  4. --------------------------------------------------------------------------------   
  5. /6bedadd5_KeyManagerFactory1   
  6. /ffd795c8_AddCRIF   
  7. TABLE_EXPORT_OBJECTS   
  8. /278cd3a4_CGParselet   
  9. KU$_REFCOL_T   
  10.     
  11. SQL>  select * from (select OBJECT_NAME from zeeno order by sys_guid()) where rownum < 6;   
  12.     
  13. OBJECT_NAME   
  14. --------------------------------------------------------------------------------   
  15. sun/awt/InputMethodSupport   
  16. V_$RESTORE_POINT   
  17. COLORSLIST   
  18. java/util/WeakHashMap$Entry   
  19. DBMSOUTPUT_LINESARRAY  
  1. SQL>  select * from (select OBJECT_NAME from zeeno order by sys_guid()) where rownum < 6;   
  2.    
  3. OBJECT_NAME  
  4. --------------------------------------------------------------------------------  
  5. /6bedadd5_KeyManagerFactory1  
  6. /ffd795c8_AddCRIF  
  7. TABLE_EXPORT_OBJECTS  
  8. /278cd3a4_CGParselet  
  9. KU$_REFCOL_T  
  10.    
  11. SQL>  select * from (select OBJECT_NAME from zeeno order by sys_guid()) where rownum < 6;  
  12.    
  13. OBJECT_NAME  
  14. --------------------------------------------------------------------------------  
  15. sun/awt/InputMethodSupport  
  16. V_$RESTORE_POINT  
  17. COLORSLIST  
  18. java/util/WeakHashMap$Entry  
  19. DBMSOUTPUT_LINESARRAY  

 

注:

       在使用sys_guid() 这种方法时,有时会获取到相同的记录,即和前一次查询的结果集是一样的,查找相关资料,有些说是和操作系统有关,在windows平台下正常,获取到的数据是随机的,而在linux等平台下始终是相同不变的数据集,有些说是因为sys_guid()函数本身的问题,即sys_guid()会在查询上生成一个16字节的全局唯一标识符,这个标识符在绝大部分平台上由一个宿主标识符和进程或进程的线程标识符组成,这就是说,它很可能是随机的,但是并不表示一定是百分之百的这样。
      
       所以,为确保在不同的平台每次读取的数据都是随机的,我们大多采用使用sample函数或者DBMS_RANDOM包获得随机结果集,其中使用sample函数更常用,因为其查询时缩小了查询范围,在查询大表,且要提取数据不是很不多的情况下,会对查询速度上有明显的提高。


 

二、其他数据库随机取出n条记录:

1、SqlServer中随机提取数据库记录

select top n * from 表 order by newid()

--------------------------------------------------------------------------------
select top 10 * from tablename order by NEWID()   
select top 10 * from tablename order by NEWID()

2、mysql中随机提取数据库记录

Select * From 表 order By rand() Limit n

-------------------------------------------------------------------------------
select * from tablename order by rand() limit 10
select * from tablename order by rand() limit 10

3、Access中随机提取数据库记录

Select top n * FROM 表 orDER BY Rnd(id)

-------------------------------------------------------------------------------
SELECT top 10 * FROM tablename ORDER BY Rnd(FId)   
SELECT top 10 * FROM tablename ORDER BY Rnd(FId)
FId:为你当前表的ID字段名

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

<think>好的,我现在需要帮助用户解决如何从Oracle数据库中使用GROUP BY进分组抽取数据的问题。用户提到了之前的回答中引用了四个文献,我需要先回顾这些引用,看看是否有相关的信息可以利用。 首先,引用[1]中的例子使用了GROUP_CONCAT函数,这可能在分组后合并字段时有用。用户现在的问题是关于分组抽取数据,可能需要类似的聚合函数。例如,用户可能需要将某个字段的值合并成一个字符串,或者进计数、求和等操作。 引用[2]提到了ETL过程中的数据抽取,特别是从Oracle这样的关系型数据库提取数据。这可能涉及到如何高效地从数据库中抽取分组后的数据,尤其是在处理大量数据时需要考虑性能问题,比如引用[3]中提到的百万级数据划分耗时的问题。不过用户当前的问题可能更侧重于基本的SQL写法,而不是性能优化,但可能需要提到相关注意事项。 引用[4]详细介绍了Oracle的定时任务,这可能与用户的问题不直接相关,但如果用户需要在定时任务中执分组抽取,可能需要结合使用,但用户当前的问题主要是SQL语句的示例,所以这部分可能暂时不需要涉及。 用户的上一次问题中,我详细讲解了不同数据类型的抽取方法,包括基本类型、时间类型、大对象等,并给出了相关SQL示例。现在用户需要的是分组抽取的方法,即使用GROUP BY子句的SQL示例。需要结合之前的回答,可能需要补充如何对不同类型的字段进分组和聚合。 接下来,我需要确定用户的具体需求。用户想要按照分组抽取数据,可能需要的是每个组中的某些聚合信息,比如每个组的记录数、某字段的总和、最大值,或者将多个值合并成一个字符串等。根据引用[1]中的例子,用户可能对合并字符串感兴趣,但需要明确用户的需求是否包括其他聚合函数。 可能的步骤: 1. 确定分组字段(GROUP BY后的列) 2. 选择需要显示的聚合字段,如COUNT、SUM、MAX、LISTAGG等 3. 编写SQL语句示例,包括基本的分组查询、使用LISTAGG合并字符串、使用分析函数如ROW_NUMBER()进抽样 4. 考虑性能优化,尤其是在处理大数据量时的注意事项,比如使用WHERE子句限制数据量,创建索引等 5. 提供验证数据的方法,确保分组正确 需要检查Oracle支持的聚合函数,例如LISTAGG是Oracle中常用的字符串聚合函数,可以替代引用[1]中的GROUP_CONCAT(可能是MySQL的函数)。因此,在Oracle中应该使用LISTAGG,并注意其语法。 另外,用户可能需要不同的抽样方法,比如每组抽取前N记录,这时候可以使用ROW_NUMBER()窗口函数,按组排序后选取指定数。 还需要考虑用户是否了解GROUP BY的基本用法,是否需要解释GROUP BY和聚合函数的关系,比如选择列必须要么在GROUP BY中,要么在聚合函数中。 可能的示例包括: 1. 基本分组统计 2. 合并组内字符串 3. 分组抽样 4. 多级分组 最后,需要确保回答结构清晰,分点说明,并给出示例代码,同时参考之前的引用文献,比如引用[1]中的GROUP_CONCAT在Oracle中的对应函数,以及引用[3]中提到的大数据量处理时的性能考虑,可能需要提醒用户注意执效率。</think>根据Oracle数据库的分组数据抽取需求,以下是基于$GROUP\ BY$的完整实现方法和SQL示例,包含基础分组、数据聚合、抽样控制等多种场景: --- ### 一、基础分组统计 #### 1. 单字段分组统计 ```sql SELECT department_id, COUNT(*) AS employee_count, AVG(salary) AS avg_salary FROM employees GROUP BY department_id; ``` *说明:统计每个部门的员工数量和平均薪资,$COUNT$和$AVG$为聚合函数[^1]* #### 2. 多字段组合分组 ```sql SELECT department_id, job_title, MIN(hire_date) AS earliest_hire, MAX(salary) AS highest_salary FROM employees GROUP BY department_id, job_title; ``` *说明:按部门+职位双重维度进分组统计* --- ### 二、分组数据合并 #### 1. 字符串聚合(LISTAGG函数) ```sql SELECT department_id, LISTAGG(employee_name, ', ') WITHIN GROUP (ORDER BY hire_date) AS employees_list FROM employees GROUP BY department_id; ``` *效果示例:* ``` 开发部 | 张三, 李四, 王五 ``` *说明:将同部门员工姓名按入职顺序合并为字符串[^1]* #### 2. JSON格式聚合 ```sql SELECT department_id, JSON_ARRAYAGG(employee_name) AS json_array FROM employees GROUP BY department_id; ``` --- ### 三、分组抽样控制 #### 1. 每组随机抽取N ```sql SELECT * FROM ( SELECT e.*, ROW_NUMBER() OVER (PARTITION BY department_id ORDER BY DBMS_RANDOM.VALUE) AS rn FROM employees e ) WHERE rn <= 5; -- 每组抽取5 ``` #### 2. 按件筛选后分组 ```sql SELECT department_id, COUNT(*) FILTER (WHERE salary > 10000) AS high_salary_count FROM employees WHERE hire_date >= DATE '2020-01-01' -- 先筛选后分组 GROUP BY department_id; ``` --- ### 四、分层抽样(Stratified Sampling) ```sql WITH ranked_data AS ( SELECT t.*, NTILE(4) OVER (PARTITION BY department_id ORDER BY employee_id) AS stratum FROM employees t ) SELECT * FROM ranked_data WHERE stratum = 1; -- 抽取每个分组的第一个分层 ``` --- ### 五、性能优化建议 1. **索引策略** 为$GROUP\ BY$字段创建组合索引: ```sql CREATE INDEX idx_dept_job ON employees(department_id, job_title); ``` 2. **并处理** ```sql SELECT /*+ PARALLEL(8) */ department_id, AVG(salary) FROM employees GROUP BY department_id; ``` 3. **物化视图预聚合** ```sql CREATE MATERIALIZED VIEW dept_stats BUILD IMMEDIATE REFRESH COMPLETE AS SELECT department_id, COUNT(*) AS cnt, AVG(salary) AS avg_sal FROM employees GROUP BY department_id; ``` --- ### 六、数据验证方法 ```sql -- 验证分组完整性 SELECT department_id, COUNT(*) FROM ( SELECT department_id, employee_id FROM employees GROUP BY department_id, employee_id ) GROUP BY department_id; ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值