Oracle over()分析函数 ---- 去重数据

本文介绍了一种使用SQL的over()函数结合row_number()来合并多个数据表的方法,以确保从不同表中选择最优数据行。通过对表A、B、C进行特定的排序和筛选,实现了数据的有效整合。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

分析函数的形式

分析函数带有一个开窗函数over(),包含三个分析子句:分组(partition by), 排序(order by), 窗口(rows) ,他们的使用形式如下:over(partition by xxx order by yyy rows between zzz)。


业务背景:三张数据表 A B C

其中 A表是最大的表,包含 B和C中的数据(部分或全部);同时,B和C之间也可能存在部分重复的数据。

实现:需要写一个SQL,查询A B C三张表中的数据,要求是:

            1、如果A B C三张表中都有的数据,那么只显示A表中的那条

            2、如果是B C中有的数据 A中没有的  那么就显示C表中的数据

            3、如果是A B C表中各自独有的数据,那么直接展示

方法:

利用over()分析函数的形式,可以很好的做排序,然后筛选,首先我们知道 A B C的筛选次————A>C>B,那么我们可以select中通过自定义字段来区分这个次序,具体SQL如下:

select
                    EBCU.CODE,
                    EBCU.TABLE_SOURCE ,
                    row_number() over(PARTITION BY EBCU.PM_CODE ORDER BY EBCU.TABLE_SOURCE ASC) as group_idx 
                FROM
                    (select
                        CODE,
                        '1'  TABLE_SOURCE         
                    from
                        A 
                    union
                    select
                        CODE,
                        '3' TABLE_SOURCE         
                    from
                        B     
                    union
                    select
                        CODE,
                        '2' TABLE_SOURCE       
                    from
                        C 

                ) EBCU 

以上查询结果存在如下情况:


之后我们需要对以上重复的数据进行筛选,进一步的SQL如下:

SELECT * FROM (

            select  EBCU.CODE,

                        EBCU.TABLE_SOURCE ,
                        row_number() over(PARTITION BY EBCU.PM_CODE ORDER BY EBCU.TABLE_SOURCE ASC) as group_idx 
                FROM
                    (select
                        CODE,
                        '1'  TABLE_SOURCE         
                    from
                        A 
                    union
                    select
                        CODE,
                        '3' TABLE_SOURCE         
                    from
                        B     
                    union
                    select
                        CODE,
                        '2' TABLE_SOURCE       
                    from
                        C 

                ) EBCU    )  AAA_  

                where AAA_.group_idx = 1;

以上处理结果就是满足了我们要求的数据。




<think>好的,我现在需要帮助用户解决Oracle数据库中的问题。用户提到了DISTINCT和GROUP BY,还可能有其他方法。首先,我得回顾之前提供的引用内容,看看有哪些的方法已经提到过。比如引用1中提到了使用GROUP BY和ROWID来删除复记录,保留最小或最大的ROWID。引用2提到了用DISTINCT结合临时表的方法。还有引用4提到使用GROUP BY取最大值,并结合子查询和连接。 用户现在明确询问Oracle SQL中的解决方案或语法,特别是DISTINCT和GROUP BY。我需要先整理这些方法,同时可能还需要补充其他方法,比如使用ROW_NUMBER()窗口函数,这在之前的引用中没有提到,但常见的方法之一。 接下来,我需要考虑用户可能的场景。用户可能是遇到了数据复的问题,需要保留一条记录,删除其他复项。或者他们可能需要查询时数据,而不实际删除。根据引用1中的DELETE语句,用户可能对删除数据感兴趣,但这次的问题更偏向于查询时的,即如何编写SELECT语句来。 需要区分不同的情况:完全复(所有字段相同)和部分复(某些字段相同)。引用2提到了这两种情况,所以应该分别说明。对于完全复,DISTINCT或GROUP BY都可以,而部分复可能需要更复杂的处理,比如使用ROW_NUMBER()按某个字段排序,保留需要的记录。 另外,用户可能对Oracle和MySQL的区别有疑问,比如引用3中提到GROUP BY在Oracle中的限制,即查询的字段必须包含在GROUP BY子句或聚合函数中。这点需要注意,因为在Oracle中使用GROUP BY时,必须确保选择的列要么在GROUP BY中,要么使用聚合函数。 现在需要组织回答的结构。首先介绍基本方法,如DISTINCT和GROUP BY,然后介绍处理部分复的高级方法,比如ROW_NUMBER(),接着给出删除数据的示例,最后注意事项和对比不同方法的应用场景。同时,要引用之前提供的引用内容,比如引用1中的DELETE语句,引用2的临时表方法,引用4的子查询方法。 需要确保语法正确,尤其是Oracle特有的写法,比如ROWID的使用。例如,在删除数据时,使用ROWID和子查询来保留最小或最大的ROWID,这是Oracle中常用的方法,如引用1所示。 另外,用户可能需要知道不同方法的性能差异。比如,使用ROW_NUMBER()可能在处理大数据量时效率如何,或者GROUP BY和DISTINCT哪个更高效。虽然用户没有直接问,但作为补充信息可能会有帮助。 最后,生成相关问题,引导用户进一步思考,比如询问如何选择方法,或者处理复杂复情况的例子。这些问题需要基于回答内容,帮助用户深入理解。</think>### Oracle SQL解决方案详解 --- #### **一、基础方法** 1. **$DISTINCT$关键字** 适用于**完全数据**(所有字段值相同)的: ```sql -- 单字段 SELECT DISTINCT column_name FROM table_name; -- 多字段组合 SELECT DISTINCT col1, col2 FROM table_name; ``` **注意**:$DISTINCT$作用于所有查询字段的组合,且会**降低查询性能**(全表扫描)[^2]。 2. **$GROUP BY$分组** 适用于**按指定字段分组**,可结合聚合函数: ```sql SELECT col1, MAX(col2) -- 取col2最大值 FROM table_name GROUP BY col1; -- 按col1分组 ``` **Oracle限制**:查询字段必须包含在$GROUP BY$子句或聚合函数中,否则报错[^3]。 --- #### **二、处理部分复的高级方法** 当数据**部分字段复**(如主键不同但业务字段复)时,需通过**唯一标识过滤**: 1. **使用$ROW_NUMBER()$窗口函数** 按复规则排序后保留第一条: ```sql SELECT * FROM ( SELECT t.*, ROW_NUMBER() OVER(PARTITION BY col1, col2 ORDER BY create_time DESC) rn FROM table_name t ) WHERE rn = 1; -- 保留每个分组的最新记录 ``` 2. **利用$ROWID$删除数据** 保留最小$ROWID$的记录(物理存储地址): ```sql DELETE FROM table_name WHERE ROWID NOT IN ( SELECT MIN(ROWID) FROM table_name GROUP BY col1, col2 -- 定义复判定字段 ); ``` **应用场景**:需要**物理删除数据**时使用[^1]。 --- #### **三、综合对比与选择建议** | 方法 | 适用场景 | 性能影响 | 数据操作类型 | |---------------------|----------------------------|---------------|-----------------| | `DISTINCT` | 快速查询 | 高(全表扫描) | 查询结果 | | `GROUP BY` | 分组统计+ | 中(索引优化) | 查询结果 | | `ROW_NUMBER()` | 保留特定顺序的复记录 | 中高 | 查询结果 | | `ROWID`删除 | 物理删除数据 | 高(需事务管理)| 数据永久删除 | --- #### **四、实际案例演示** **场景**:表`orders`中存在复订单(相同`order_no`但不同`create_time`),需保留最新记录。 ```sql -- 方法1:ROW_NUMBER() SELECT order_id, order_no, amount FROM ( SELECT t.*, ROW_NUMBER() OVER(PARTITION BY order_no ORDER BY create_time DESC) rn FROM orders t ) WHERE rn = 1; -- 方法2:GROUP BY + MAX SELECT MAX(order_id) AS order_id, order_no, MAX(amount) KEEP (DENSE_RANK LAST ORDER BY create_time) AS amount FROM orders GROUP BY order_no; ``` --- #### **五、关键注意事项** 1. **索引优化**:对$GROUP BY$或$PARTITION BY$的字段建立索引可提升性能[^1]。 2. **逻辑验证**:需明确业务层面的复定义(如是否包含NULL值)。 3. **事务控制**:执行删除操作前建议开启事务(`BEGIN TRANSACTION;`)并备份数据--- ### 相关问题 1. 如何通过分析执行计划优化Oracle查询的性能? 2. 在Oracle中使用`ROW_NUMBER()`时,如何避免全表排序带来的性能问题? 3. 当表中存在大量数据时,哪种方法更适合保证事务效率?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值