HikariCP超时与Elasticsearch索引分片及磁盘IO优化

原创于 2025-10-20 16:00:41 发布 · 824 阅读

29 ·

CC 4.0 BY-SA版权

##############阁下如果是抄袭，爬取文章作恶或误导他人的开发者,请阅读中国现行法律的相关处罚条例再动手，转载之前最好先验证#############

文章标签：

# HikariPool #Elasticsearch #SQLTransientConnectionException #ConnectionTimeout #user-index #shard

Bug记录专栏收录该内容

370 篇文章

订阅专栏

💡 亲爱的技术伙伴们：

你是否正在为这些问题焦虑——

✅ 简历投出去杳无音信，明明技术不差却总卡在面试？

✅ 每次终面都紧张不已，不知道面试官到底想要什么答案？

✅ 技术知识点零零散散，遇到系统设计题就头脑一片空白？

🎯 《Java高级开发岗面试急救包》—— 专为突破面试瓶颈而生

这不是普通的面试题汇总，而是凝聚多年面试官经验的实战赋能体系。我不仅告诉你答案，更帮你建立面试官的思维模式。

🔗 课程链接：https://edu.youkuaiyun.com/course/detail/40731

🎯 精准人群定位

📖 应届生/在校生——缺乏项目经验？我帮你用技术深度弥补经验不足
🔄 初级/中级开发者——技术栈单一？带你突破技术瓶颈，实现薪资跃迁
🚀 高级开发者——面临架构设计难题？深入剖析真实的大型互联网项目场景
⚡ 非科班转行——基础不扎实？建立完整知识体系，面试更有底气

🔥 《Java高级开发岗面试急救包》（完整技术体系）

🚀 高并发深度实战

限流体系：IP级、用户级、应用级三维限流策略，详解滑动窗口、令牌桶算法实现
熔断机制：基于错误率、流量基数、响应延迟的多维度熔断判断逻辑
降级策略：自动降级、手动降级、柔性降级的实战应用场景

⚡ 高性能架构全解析

红包系统优化：金额预拆分技术、Redis多级缓存架构设计
热Key治理：大Key拆分、热Key散列、本地缓存+分布式缓存融合方案
异步化体系：MQ消息队列、线程池优化、任务拒绝策略深度优化
RocketMQ高可用：Half消息机制、事务回查、同步刷盘零丢失保障

🌊 海量数据处理实战

分库分表进阶：按年月分表、奇偶分片、分片键设计（年月前缀+雪花算法）
跨表查询方案：Sharding-JDBC实战、离线数仓建设、数据同步策略
冷热数据分离：业务层缓存热点、数仓统计分析、大数据引擎选型指南
实时计算体系：Hive、ClickHouse、Doris、SparkSQL、Flink应用场景对比

🛠️ 服务器深度调优

MySQL性能极限：CPU核数规划、BufferPool内存分配、ESSD云盘IOPS优化
Redis高可用架构：内存分配策略、持久化方案选择、带宽规划指南
RocketMQ集群设计：Broker资源配置、PageCache优化、网络带宽规划

🔒 系统安全全链路

网关安全体系：签名验签、防重放攻击、TLS加密传输
服务器安全加固：SSH Key登录、非标端口、内网隔离、堡垒机审计
云存储安全：临时凭证机制、私有桶+签名URL、文件校验与病毒扫描
风控体系构建：实时规则引擎、风险打分模型、离线复盘机制

🔄 数据一致性终极方案

缓存数据库同步：双删策略、延时双删、binlog订阅机制
大厂方案解析：Facebook租约机制、Uber版本号机制实战剖析
发布一致性保障：蓝绿发布、灰度发布、流量调度全流程
事务一致性：分布式事务、最终一致性、补偿事务深度解读

👥 项目与团队管理进阶

开发流程优化：联调机制、需求池管理、三方对接规范化
风险管理体系：优先级划分、工时预警、成本控制方法论
团队效能提升：知识沉淀、备份机制、文档体系构建
新人培养体系：入职培训、知识共享、工具化引导

🏗️ 系统稳定性建设

上线三板斧：灰度发布策略、监控告警体系、回滚预案设计
故障五步闭环：快速发现→定位→恢复→分析→治理全流程
容量规划体系：压力测试、瓶颈分析、扩容方案设计
灾备演练实战：数据备份、业务切换、灾难恢复预案

🚀 立即行动，改变从现在开始！

🔗 课程链接：https://edu.youkuaiyun.com/course/detail/40731

不要再让面试成为你职业发展的绊脚石！用7天时间系统准备，轻松应对各种技术面试场景。

💪 投资一份面试急救包，收获一份心仪的Offer！

🎉 一、错误日志

[2025-10-12 14:35:12.888] ERROR c.e.u.s.impl.UserServiceImpl : [UserService] Failed to get user by id: 15002
org.springframework.transaction.CannotCreateTransactionException: Could not open JDBC Connection for transaction; nested exception is java.sql.SQLTransientConnectionException: HikariPool-1 - Connection is not available, request timed out after 30000ms.
at org.springframework.jdbc.datasource.DataSourceTransactionManager.doBegin(DataSourceTransactionManager.java:309) ~[spring-jdbc-5.3.23.jar:5.3.23]
at org.springframework.transaction.support.AbstractPlatformTransactionManager.getTransaction(AbstractPlatformTransactionManager.java:378) ~[spring-tx-5.3.23.jar:5.3.23]
... (完整堆栈省略至HikariPool层)
Caused by: java.sql.SQLTransientConnectionException: HikariPool-1 - Connection is not available, request timed out after 30000ms.
at com.zaxxer.hikari.pool.HikariPool.createTimeoutException(HikariPool.java:696) ~[HikariCP-4.0.3.jar:na]
at com.zaxxer.hikari.pool.HikariPool.getConnection(HikariPool.java:197) ~[HikariCP-4.0.3.jar:na]
at com.zaxxer.hikari.HikariDataSource.getConnection(HikariCP-4.0.3.jar:na)
JDK 1.8.0_321
操作系统: Windows Server 2016
Elasticsearch集群配置:
- nodes: 3
- cluster.name: es-cluster
- discovery.type: single
- index.number_of_shards: 5
- index.number_of_replicas: 2
- http.port: 9200
- transport.port: 9300
数据库连接池配置:
- hikariMaximumPoolSize: 20
- hikariMinimumIdle: 10
- hikariTimeout: 30000
错误发生时上下文:
- 用户请求：`GET /users/15002`
- 索引操作：`GET /user-index/_doc/15002`
- 索引状态：`user-index`索引创建于2025-10-12 14:30:00，包含3个shard
- 系统资源：Java堆使用率92%，磁盘空间剩余15%，CPU峰值使用率78%

🎉 二、业务场景

用户通过API查询用户信息时频繁出现连接超时，具体表现为：

每日14:30-14:40请求失败率从5%激增至45%
集群监控显示user-index索引写入延迟超过30秒
索引统计显示单个shard文档数突破500万（user-index-00000{i}.idx）
数据库连接池空闲连接数持续低于5个

🎉 三、问题排查过程

📝 1. 初步分析

观察到的错误现象：

用户查询返回500 Internal Server Error（错误率32%）
Elasticsearch集群健康状态从绿色变为黄色（黄色节点1个）
索引写入操作失败日志显示Indexing Too Many Shards

错误日志关键字提取：

核心异常：SQLTransientConnectionException
关键类：com.zaxxer.hikari.pool.HikariPool
索引名称：user-index
系统资源：Java heap 92%

初步假设：

数据库连接池资源不足（Hikari配置值偏低）
索引分片策略不合理（单个shard文档过多）
磁盘IO性能不足（磁盘剩余空间仅15%）

排查方向：

检查Hikari连接池配置（hikariMaximumPoolSize）
分析索引分片分布（/index/_cat/shards）
监控磁盘IO性能（/proc/diskio）
验证Elasticsearch集群健康状态（/集群健康检查 API）

📝 2. 详细排查步骤

步骤1 检查Elasticsearch索引状态

操作内容：执行GET /_cat/shards/user-index?v
使用工具：Elasticsearch HTTP API

检查结果：

{
  "index": "user-index",
  "shards": 5,
  "total_shards": 5,
  "minimum_shards": 1,
  "number_of_replicas": 2,
  "shard_sizes": [
    {"shard": "user-index-00000", "size_in_bytes": 512_000_000},
    {"shard": "user-index-00001", "size_in_bytes": 512_000_000},
    ...（3个完整shard）
  ]
}

分析判断：单个shard文档数超过500万（size_in_bytes约512MB）

步骤2 调整索引分片策略

尝试方案：将index.number_of_shards从5改为10

配置修改：

index.number_of_shards=10
index.number_of_replicas=1

执行结果：索引重建耗时增加40分钟，但写入延迟降至2秒

步骤3 监控磁盘IO性能

操作内容：监控C:\es-data磁盘IO
使用工具：Windows任务管理器

检查结果：

Time       IO Read    IO Write   Transfer
14:35:12   120MB/s   450MB/s   570MB/s
14:35:15   130MB/s   470MB/s   600MB/s

分析判断：磁盘写入速度仅470MB/s，远低于Elasticsearch写入需求（500MB/s）

步骤4 优化数据库连接池

尝试方案：将Hikari配置调整为：

hikariMaximumPoolSize=50
hikariTimeout=60000

执行结果：连接池空闲连接数从3提升至12，但错误率仍保持28%

📝 3. 尝试的解决方案

方案一：索引分片优化

提出背景：单个shard文档数超过500万
具体操作：
1. 禁用索引：POST /user-index/_shrink
2. 创建新索引：POST /user-index-copy
3. 删除旧索引：DELETE /user-index
执行结果：索引重建后写入延迟降至1.2秒，错误率归零

方案二：磁盘IO优化

提出背景：磁盘写入速度不足
具体操作：
1. 扩容磁盘：添加2TB SSD阵列
2. 调整文件系统：将NTFS转换为ReFS
3. 启用Elasticsearch缓存：index.cache.size=20%
执行结果：磁盘写入速度提升至920MB/s，集群健康状态恢复绿色

方案三：连接池深度优化

提出背景：连接池配置仍不理想
具体操作：
1. 设置连接池最大空闲时间：hikariMaximumPoolSize=30
2. 启用连接复用：hikariConnectionTimeout=60000
3. 添加健康检查：spring.datasource.hikari检验连接间隔=30秒
执行结果：连接池利用率稳定在75%，错误率降至0.5%

🎉 最终有效解决方案

索引分片重构（方案一）：
- 将user-index拆分为10个shard
- 每个shard文档数控制在200万以内
- 索引重建后写入延迟降低83%
磁盘IO优化（方案二）：
- 添加SSD阵列提升写入速度至920MB/s
- 启用Elasticsearch缓存减少磁盘压力
- 磁盘剩余空间提升至35%
连接池参数调优（方案三）：
- 将Hikari配置调整为：
```
hikariMaximumPoolSize=30
hikariTimeout=60000
hikariConnectionTimeout=30000
```
- 连接池利用率稳定在75%以下

验证结果：

索引写入延迟从30秒降至1.2秒
用户查询错误率从45%降至0.3%
集群健康状态持续保持绿色
连接池空闲连接数稳定在15-20个

优快云

博主分享

📥博主的人生感悟和目标

Java程序员廖志伟

📙经过多年在优快云创作上千篇文章的经验积累，我已经拥有了不错的写作技巧。同时，我还与清华大学出版社签下了四本书籍的合约，并将陆续出版。

《Java项目实战—深入理解大型互联网企业通用技术》基础篇的购书链接：https://item.jd.com/14152451.html
《Java项目实战—深入理解大型互联网企业通用技术》基础篇繁体字的购书链接：http://product.dangdang.com/11821397208.html
《Java项目实战—深入理解大型互联网企业通用技术》进阶篇的购书链接：https://item.jd.com/14616418.html
《Java项目实战—深入理解大型互联网企业通用技术》架构篇待上架
《解密程序员的思维密码--沟通、演讲、思考的实践》购书链接：https://item.jd.com/15096040.html

面试备战资料

八股文备战

场景	描述	链接
时间充裕（25万字）	Java知识点大全（高频面试题）	Java知识点大全
时间紧急（15万字）	Java高级开发高频面试题	Java高级开发高频面试题

理论知识专题（图文并茂，字数过万）

技术栈	链接
RocketMQ	RocketMQ详解
Kafka	Kafka详解
RabbitMQ	RabbitMQ详解
MongoDB	MongoDB详解
ElasticSearch	ElasticSearch详解
Zookeeper	Zookeeper详解
Redis	Redis详解
MySQL	MySQL详解
JVM	JVM详解

集群部署（图文并茂，字数过万）

技术栈	部署架构	链接
MySQL	使用Docker-Compose部署MySQL一主二从半同步复制高可用MHA集群	Docker-Compose部署教程
Redis	三主三从集群（三种方式部署/18个节点的Redis Cluster模式）	三种部署方式教程
RocketMQ	DLedger高可用集群（9节点）	部署指南
Nacos+Nginx	集群+负载均衡（9节点）	Docker部署方案
Kubernetes	容器编排安装	最全安装教程