java mysql 高性能批量处理 设置rewriteBatchedStatements

昨天研究了一下mysql的批处理,最初发现很慢

10000条    每次1000    243秒
50000条    每次500条   1295秒

代码如下:


 
 
  1. package main;
  2. import java.sql.*;
  3. public class JdbcStreaming {
  4. public static void main(String[] args){
  5. try {
  6. Connection conn = null;
  7. Class.forName( "com.mysql.jdbc.Driver").newInstance(); // MYSQL驱动
  8. conn = DriverManager.getConnection( "jdbc:mysql://127.0.0.1:3306/test_deletable?useUnicode=true&characterEncoding=UTF-8",
  9. "mysql", "mysql"); // 链接本地MYSQL
  10. int batchSize = 50000;
  11. int count = 5000000;
  12. conn.setAutoCommit( false); //设置自动提交为false
  13. PreparedStatement ps = conn.prepareStatement( "insert into test (id) values (?)");
  14. Long t1 = System.currentTimeMillis();
  15. System.out.println( "====================");
  16. for ( long i = 1; i < count; i++) {
  17. ps.setLong( 1, i); //设置第一个参数的值为i
  18. ps.addBatch(); //将该条记录添加到批处理中
  19. if (i% batchSize == 0) {
  20. ps.executeBatch(); //执行批处理
  21. conn.commit(); //提交
  22. System.out.println(i+ ":添加"+batchSize+ "条");
  23. }
  24. }
  25. if ((count+ 1) % batchSize != 0) {
  26. ps.executeBatch();
  27. conn.commit();
  28. }
  29. ps.close();
  30. Long t2 = System.currentTimeMillis();
  31. System.out.println(count+ "条 每次"+batchSize+ "条 "+(t2-t1)/ 1000+ "秒");
  32. } catch (Exception e) {
  33. // TODO: handle exception
  34. e.printStackTrace();
  35. }
  36. }
  37. }

很明显,1万条数据,需要执行243秒。

这个代码的性能很低,首先排除该表的复杂性(该表只有两个字段,id为自增主键),二、排除逻辑复杂性(从代码可以看出,这段代码只是简单的把i值赋给id)

后来又调整了很多参数,但都没有找到根本原因,执行时间会有稍微提高或者没什么变化。


最后,添加参数rewriteBatchedStatements=true

即:


 
 
  1. conn = DriverManager.getConnection( "jdbc:mysql://127.0.0.1:3306/test_deletable?rewriteBatchedStatements=true&useUnicode=true&characterEncoding=UTF-8",
  2. "mysql", "mysql"); // 链接本地MYSQL

执行时间提高100倍以上

50000条    每次500条   7秒


后续修改批处理大小,得到执行时间不一样。

5000000条    每次500条   849秒

5000000条    每次5000条   179秒

5000000条    每次50000条   90秒

5000000条    每次100000条   211秒


可以看出来,批处理大小的设置,也是影响执行时间的一个重要原因,但并不是设置的越大越好,或者越小越好。


下面介绍一下rewriteBatchedStatements

MySql的JDBC连接的url中要加rewriteBatchedStatements参数,并保证5.1.13以上版本的驱动,才能实现高性能的批量插入。


MySQL Jdbc驱动在默认情况下会无视executeBatch()语句,把我们期望批量执行的一组sql语句拆散,一条一条地发给MySQL数据库,直接造成较低的性能。
 
只有把rewriteBatchedStatements参数置为true, 驱动才会帮你批量执行SQL (jdbc:mysql://ip:port/db?rewriteBatchedStatements=true)。

另外,有人说rewriteBatchedStatements只对INSERT有效,有人说它对UPDATE/DELETE也有效。为此我做了一些实验(详见下文),结论是: 这个选项对INSERT/UPDATE/DELETE都有效,只不过对INSERT它为会预先重排一下SQL语句。
 
 
实验记录:未打开rewriteBatchedStatements时


未打开rewriteBatchedStatements时,根据wireshark嗅探出的mysql报文可以看出,
batchDelete(10条记录)  =>  发送10次delete 请求
batchUpdate(10条记录)  =>  发送10次update 请求
batchInsert(10条记录)  =>  发送10次insert 请求
 
也就是说,batchXXX()的确不起作用
 
实验记录:打开了rewriteBatchedStatements后


打开rewriteBatchedStatements后,根据wireshark嗅探出的mysql报文可以看出
 
batchDelete(10条记录)  =>  发送一次请求,内容为”delete from t where id = 1; delete from t where id = 2; delete from t where id = 3; ….”
batchUpdate(10条记录)  =>  发送一次请求,内容为”update t set … where id = 1; update t set … where id = 2; update t set … where id = 3 …”
batchInsert(10条记录)  =>   发送一次请求,内容为”insert into t (…) values (…) , (…), (…)”
 
对delete和update,驱动所做的事就是把多条sql语句累积起来再一次性发出去;而对于insert,驱动则会把多条sql语句重写成一条风格很酷的sql语句,然后再发出去。 官方文档说,这种insert写法可以提高性能(”This is considerably faster (many times faster in some cases) than using separate single-row INSERT statements”)
 
一个注意事项


需要注意的是,即使rewriteBatchedStatements=true, batchDelete()和batchUpdate()也不一定会走批量: 当batchSize <= 3时,驱动会宁愿一条一条地执行SQL。所以,如果你想验证rewriteBatchedStatements在你的系统里是否已经生效,记得要使用较大的batch.





### 设置 `rewriteBatchedStatements=true` 的方法 在 JDBC 连接中启用 `rewriteBatchedStatements=true` 参数,可以通过修改数据库连接 URL 来实现。具体来说,可以在建立与 MySQL 数据库的连接时,在连接字符串中添加此参数[^2]。 以下是配置示例: ```java String url = "jdbc:mysql://localhost:3306/mydatabase?rewriteBatchedStatements=true"; Properties properties = new Properties(); properties.setProperty("user", "username"); properties.setProperty("password", "password"); try (Connection connection = DriverManager.getConnection(url, properties)) { // 使用 connection 执行批量操作 } catch (SQLException e) { e.printStackTrace(); } ``` ### `rewriteBatchedStatements=true` 的作用 该参数的主要作用是优化批量 SQL 操作的性能。当设置为 `true` 时,MySQL JDBC 驱动会将多个独立的 SQL 插入或更新语句组合成单个批量请求发送给数据库服务器。这种机制减少了客户端与数据库之间的网络交互次数,从而显著提高了大批量数据插入或更新的速度。 例如,假设有一组需要插入的数据,通常情况下每次执行一条 `INSERT INTO ... VALUES (...)` 语句都会触发一次单独的通信。而启用了 `rewriteBatchedStatements=true` 后,这些语句会被重写并打包成一个批次提交给数据库,类似于以下形式: ```sql INSERT INTO mytable (column1, column2) VALUES (?, ?), (?, ?), (?, ?); ``` 这种方式不仅降低了网络开销,还减轻了数据库解析多次独立查询的压力。 ### 应用场景 该参数适用于涉及大量数据的操作场景,尤其是以下情况: - **高并发环境下的批量插入**:在分布式系统或多线程应用中频繁向数据库写入大规模数据。 - **大数据迁移或初始化**:如从文件或其他存储介质加载海量记录到关系型数据库。 - **实时日志采集**:某些业务可能需要持续不断地将外部事件转化为结构化数据存入 DB 表格。 需要注意的是,尽管开启此选项能够带来明显的性能改善,但也可能导致更复杂的错误诊断以及更高的内存消耗于服务端缓存待确认的结果集之前。 ### 注意事项 为了确保最佳实践,请注意以下几点: - 确认所使用的 MySQL 版本支持该特性; - 测试不同硬件条件下实际吞吐率变化以验证收益; - 考虑结合其他调优手段共同提升整体表现,比如合理调整最大等待时间和预编译语句池大小等设置[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值