两表间大数量更新

本文探讨了在Oracle数据库中针对两张关联表进行批量数据更新的不同方法及其性能对比。通过四种不同的实现方式,包括传统的PL/SQL游标、循环分批处理、虚拟表更新及创建新表,展示了如何高效地更新大量数据。

现在我们有2张表 如下:
T1--大表 10000笔 T1_FK_ID
T2--小表 5000笔   T2_PK_ID
T1通过表中字段ID与T2的主键ID关联
模拟数据如下:
--T2有5000笔数据
create table T2
as
select rownum id, a.*
from all_objects a
where 1=0;
-- Create/Recreate primary, unique and foreign key constraints
alter table T2
add constraint T2_PK_ID primary key (ID);
insert /*+ APPEND */ into T2
select rownum id, a.*
      from all_objects a where rownum<=5000;
      
--T1有10000笔数据           
create table T1
as
select rownum sid, T2.*
from T2
where 1=0;
-- Create/Recreate primary, unique and foreign key constraints
alter table T1
add constraint T1_FK_ID foreign key (ID)
references t2 (ID);
insert /*+ APPEND */ into T1
select rownum sid, T2.*
      from T2;
insert /*+ APPEND */ into T1
select rownum sid, T2.*
      from T2;
--更新Subobject_Name字段,之前为null
update T2 set T2.Subobject_Name='StevenHuang'
我们希望能把T1的Subobject_Name字段也全部更新成'StevenHuang',也就是说T1的10000笔数据都会得到更新
方法一
写PL/SQL,开cursor
declare
l_varID varchar2(20);
l_varSubName varchar2(30);
cursor mycur is select T2.Id,T2.Subobject_Name from T2;
begin
open mycur;
loop
      fetch mycur into l_varID,l_varSubName;
      exit when mycur %notfound;
      update T1 set T1.Subobject_Name = l_varSubName where T1.ID = l_varID;
end loop;
close mycur;
end;
---耗时39.716s
显然这是最传统的方法,如果数据量巨大的话(4000万笔),还会报”snapshot too old”错误退出
方法二.
用loop循环,分批操作
declare
i number;
j number;
begin
i := 1;
j := 0;
select count(*) into j from T1;
loop
exit when i > j;
update T1 set T1.Subobject_Name = (select T2.Subobject_Name from T2 where T1.ID = T2.ID)
where T1.ID >= i and T1.ID <= (i + 1000);
i := i + 1000;
end loop;
end;
--耗时0.656s,这里一共循环了10次,如果数据量巨大的话,虽然能够完成任务,但是速度还是不能令人满意。(例如我们将T1--大表增大到100000笔 T2--小表增大到50000笔
) 耗时10.139s
方法三.
--虚拟一张表来进行操作,在数据量大的情况下效率比方法二高很多
update (select T1.Subobject_Name a1,T2.Subobject_Name b1 from T1,T2 where T1.ID=T2.ID)
set a1=b1;
--耗时3.234s (T1--大表增大到100000笔 T2--小表增大到50000笔)
方法四.
--由于UPDATE是比较消耗资源的操作,会有redo和undo操作,在这个例子里面我们可以换用下面的方法,创建一张新表,因为采用insert比update快的多,之后你会有一张旧表和一张新表,然后要怎么做就具体情况具体分析了~~~~~
create table T3 as select * from T1 where rownum<1;
alter table T3 nologging;
insert /*+ APPEND */ into T3
select T1.* from T1,T2 where T1.ID=T2.ID;
--耗时0.398s (T1--大表增大到100000笔 T2--小表增大到50000笔)

分批提交是一个办法,我用第四个方法更新2000W的数据30多S

 

 

declare


  
type t2_rec is record(


  
rid rowid,


  
b number


  
);


  
type t2_type is t2_rec;


  
v_t2 t2_type;


begin


  select t2
.rowid,t2.b


  bulk collect into v_t2


  from t2
,t1 where t1.b=t2.b;


/*  for i in v_t2.first .. v_t2.last loop


    update t1 set t1.b=v_t2(i).b


    where t1.rowid=v_t2(i).rid;


  end loop;*/


  
forall i in v_t2.first..v_t2.last loop


    update t1 set t1
.b=v_t2(i).b


    where t1
.rowid=v_t2(i).rid;


  
commit;


end;

 

论坛网友提供

### MySQL Join 性能优化最佳实践 #### 合理选择数据类型 对于的连接操作,合理选择数据类型的小和精度能够显著影响性能。应尽可能使用较小的数据类型来示字段,这不仅减少了磁盘空占用,还降低了内存消耗以及提高了缓存命中率[^1]。 #### 创建有效的索引 为了加速的联接过程,在参与JOIN条件的列上建立合适的索引是非常必要的。特别是当涉及到频繁读取而较少更新规模静态数据集时,可以考虑采用覆盖索引策略——即所选索引包含了查询所需的所有字段,从而避免回操作带来的额外开销[^3]。 #### 使用分区技术 如果单张内存在量记录,则可以通过水平分割的方式将其划分为多个更易于管理的小部分;这样做有助于限制每次扫描涉及的数据范围,并可能允许并行执行某些类型的查询。针对时序列或其他具有自然顺序特性的数据集合来说,基于日期或ID范围实施范围分区往往是一个不错的选择[^4]。 #### 控制中结果集小 在多关联过程中产生的临时可能会非常庞,进而拖慢整个事务的速度甚至耗尽系统资源。因此应当注意控制最终返回给客户端的结果数量,比如利用LIMIT子句限定输出行数,或是提前过滤掉不必要的记录以减小后续处理的工作量。 #### 调整SQL语句结构 有时重新排列FROM子句中各的位置、改变ON约束条件的形式亦或是引入派生/视图等方式均有可能带来意想不到的效果。此外还需留意是否存在隐式的类型转换现象,因为它们可能导致全扫面的发生而不是预期中的索引查找[^2]。 ```sql SELECT t1.id, t1.name, COUNT(t2.order_id) AS order_count FROM orders t2 INNER JOIN customers t1 ON t1.customer_id = t2.customer_id WHERE t1.status = 'active' AND t2.date >= DATE_SUB(CURDATE(), INTERVAL 1 YEAR) GROUP BY t1.id; ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值