Java实现百万级数据量向MySQL批量插入

文章讨论了在大数据量背景下,从大数据表向MySQL同步数据的多种技术方案,包括MyBatis批量插入、JDBC批量插入并开启事务以及结合数据分批和多线程的方法。对比结果显示,原生JDBC在大数据量处理上更优,但需注意资源管理和数据分批。此外,文章还涉及了对23w数据表的统计问题,指出内存统计可能导致OOM,建议改用数据库统计以减少内存占用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

业务背景:

大数据向mysql表同步百万级数量,我们需要将大数据表里同步过来的数据分别向三张业务表做数据同步,最终将业务表的数据展示给前台进行相关业务操作。
数据量级
大数据表:700w数据量
三张业务表分别需要同步:23w、80w、680w

技术方案设计

针对批量插入选择方案:

  1. mybatis批量插入
  2. mybatis批量插入+数据分批
  3. 原生jdbc批量插入+开启事务
  4. 原生jdbc批量插入+开启事务+数据分批
  5. 原生jdbc批量插入+开启事务+数据分批+多线程

方案对比结果:

  1. mybatis批量插入 1k数据量级
  2. mybatis批量插入+数据分批 10k数据量级
  3. 原生jdbc批量插入+开启事务 10w数据量级
  4. 原生jdbc批量插入+开启事务+数据分批 100w数据量级
  5. 原生jdbc批量插入+开启事务+数据分批+多线程 1000w数据量级

方案对比参考资料:
Mybatis与JDBC批量插入MySQL数据库性能测试
JAVA向Mysql插入亿级别数据
Mybatis批量插入
Mybatis批量插入优化

知识点分析

mybatis批量插入优缺点
优点:便于书写,代码优美,适用于小数据量批量插入
缺点:大数据量的批处理性能低下、批量处理数据量大小受限、导致对象回收GC问题
原生jdbc批量插入优缺点
优点:大数据量的批量处理速度快
缺点:大数据量需要数据分批、受制于jvm资源配置、mysql服务器配置、需要手动关闭数据库连接

原生jdbc批量插入速度优于mybatis原因:
mybatis需要对插入的字段做ORM对象映射 数据量越大消耗的资源和时间越多

大数据量批量更新问题背景

完成上述三张业务表插入数据后,我还需要对其中一张23w的表里两个字段做统计,统计的内容是对另一张业务表的80w数据根据客编号进行订单主体数和付款人数量进行统计

  1. 使用多线程,多线程配置没考虑java服务器配置 导致资源内存不足 产生OOM
  2. 在内存里进行大数据量的统计

多线程配置:

注:IO密集型(某大厂实践经验)
核心线程数 = CPU核数 / (1-阻塞系数)
或着
CPU密集型:核心线程数 = CPU核数 + 1
IO密集型:核心线程数 = CPU核数 * 2

多线程配置资料参考
java线程池合理设置最大线程数和核心线程数

内存里进行大数据量的统计 改为数据库进行统计 返回统计结果进行批量更新

内存统计优缺点:
优点:不需要频繁访问数据库和占用数据库连接资源
缺点:占用大量内存资源

数据库统计优缺点:
优点:不需要占用大量内存资源
缺点:需要频繁访问数据库、频繁IO、会占用数据库连接资源

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值