ERROR: could not create server process: out of memory FATAL: could not accept new connections: o

原创于 2025-10-26 21:12:43 发布 · 337 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

# HikariCP #PostgreSQL #Connection Timeout #Memory Exhaustion #SQLTransientConnectionException #Kubernetes Scheduling

Bug记录专栏收录该内容

323 篇文章

订阅专栏

💡 亲爱的技术伙伴们：

你是否正在为这些问题焦虑——

✅ 简历投出去杳无音信，明明技术不差却总卡在面试？

✅ 每次终面都紧张不已，不知道面试官到底想要什么答案？

✅ 技术知识点零零散散，遇到系统设计题就头脑一片空白？

🎯 《Java高级开发岗面试急救包》—— 专为突破面试瓶颈而生

这不是普通的面试题汇总，而是凝聚多年面试官经验的实战赋能体系。我不仅告诉你答案，更帮你建立面试官的思维模式。

🔗 课程链接：https://edu.youkuaiyun.com/course/detail/40731

🎯 精准人群定位

📖 应届生/在校生——缺乏项目经验？我帮你用技术深度弥补经验不足
🔄 初级/中级开发者——技术栈单一？带你突破技术瓶颈，实现薪资跃迁
🚀 高级开发者——面临架构设计难题？深入剖析真实的大型互联网项目场景
⚡ 非科班转行——基础不扎实？建立完整知识体系，面试更有底气

🔥 《Java高级开发岗面试急救包》（完整技术体系）

🚀 高并发深度实战

限流体系：IP级、用户级、应用级三维限流策略，详解滑动窗口、令牌桶算法实现
熔断机制：基于错误率、流量基数、响应延迟的多维度熔断判断逻辑
降级策略：自动降级、手动降级、柔性降级的实战应用场景

⚡ 高性能架构全解析

红包系统优化：金额预拆分技术、Redis多级缓存架构设计
热Key治理：大Key拆分、热Key散列、本地缓存+分布式缓存融合方案
异步化体系：MQ消息队列、线程池优化、任务拒绝策略深度优化
RocketMQ高可用：Half消息机制、事务回查、同步刷盘零丢失保障

🌊 海量数据处理实战

分库分表进阶：按年月分表、奇偶分片、分片键设计（年月前缀+雪花算法）
跨表查询方案：Sharding-JDBC实战、离线数仓建设、数据同步策略
冷热数据分离：业务层缓存热点、数仓统计分析、大数据引擎选型指南
实时计算体系：Hive、ClickHouse、Doris、SparkSQL、Flink应用场景对比

🛠️ 服务器深度调优

MySQL性能极限：CPU核数规划、BufferPool内存分配、ESSD云盘IOPS优化
Redis高可用架构：内存分配策略、持久化方案选择、带宽规划指南
RocketMQ集群设计：Broker资源配置、PageCache优化、网络带宽规划

🔒 系统安全全链路

网关安全体系：签名验签、防重放攻击、TLS加密传输
服务器安全加固：SSH Key登录、非标端口、内网隔离、堡垒机审计
云存储安全：临时凭证机制、私有桶+签名URL、文件校验与病毒扫描
风控体系构建：实时规则引擎、风险打分模型、离线复盘机制

🔄 数据一致性终极方案

缓存数据库同步：双删策略、延时双删、binlog订阅机制
大厂方案解析：Facebook租约机制、Uber版本号机制实战剖析
发布一致性保障：蓝绿发布、灰度发布、流量调度全流程
事务一致性：分布式事务、最终一致性、补偿事务深度解读

👥 项目与团队管理进阶

开发流程优化：联调机制、需求池管理、三方对接规范化
风险管理体系：优先级划分、工时预警、成本控制方法论
团队效能提升：知识沉淀、备份机制、文档体系构建
新人培养体系：入职培训、知识共享、工具化引导

🏗️ 系统稳定性建设

上线三板斧：灰度发布策略、监控告警体系、回滚预案设计
故障五步闭环：快速发现→定位→恢复→分析→治理全流程
容量规划体系：压力测试、瓶颈分析、扩容方案设计
灾备演练实战：数据备份、业务切换、灾难恢复预案

🚀 立即行动，改变从现在开始！

🔗 课程链接：https://edu.youkuaiyun.com/course/detail/40731

不要再让面试成为你职业发展的绊脚石！用7天时间系统准备，轻松应对各种技术面试场景。

💪 投资一份面试急救包，收获一份心仪的Offer！

🎉 一、错误日志

[2025-10-12 14:35:12.888] ERROR 12345 --- [nio-8080-exec-5] com.example.app.service.UserService : [UserService] Failed to get user by id: 15002
org.springframework.transaction.CannotCreateTransactionException: Could not open JDBC Connection for transaction; nested exception is java.sql.SQLTransientConnectionException: HikariPool-1 - Connection is not available, request timed out after 30000ms.
Caused by: java.sql.SQLTransientConnectionException: HikariPool-1 - Connection is not available, request timed out after 30000ms.
Caused by: java.sql.SQLException: Connections could not be acquired from the underlying database!

JDK Version: 17.0.8
OS: Linux 5.15.0-1006-amd64
HikariCP Version: 4.0.3
Spring Boot Version: 2.7.5
Database: PostgreSQL 14.5
HikariCP Configuration:
maximumPoolSize=10
minimumIdle=5
connectionTimeout=30000
Database Service: db-service (Cluster: db-cluster)
Pod IP: 10.24.0.5
Service DNS: db-service.default.svc.cluster.local
Kubernetes Node: node1
Tolerations:
- operator: Exists
  key: node.kubernetes.io/unschedulable
  value: "false"
  effect: NoSchedule
Pod Resource Limits:
CPU: 1
Memory: 2Gi
Node Resource Usage:
CPU: 75% (Total: 100%)
Memory: 85% (Total: 100%)
PostgreSQL Logs (Last 10 Lines):
[2025-10-12 14:35:12] ERROR: could not create server process: out of memory
[2025-10-12 14:35:12] FATAL: could not accept new connections: out of memory

🎉 二、业务场景

在Kubernetes集群中，当用户通过API请求获取用户信息时，服务Pod在节点1（10.24.0.5）出现数据库连接超时错误。具体表现为：

用户请求频率达到200TPS时触发
错误发生前数据库服务CPU使用率持续超过80%
对应Pod的Memory使用率突然从65%飙升至98%
调度系统日志显示Pod因资源不足被尝试驱逐（Evicted）

🎉 三、问题排查过程

📝 1. 初步分析

观察到的错误现象：

用户请求响应时间从200ms突增至5s
对应Pod在5分钟内出现3次异常重启
错误日志显示数据库服务内存耗尽

错误日志关键字提取：

关键错误类：java.sql.SQLTransientConnectionException
错误消息：Connection is not available, request timed out after 30000ms
异常发生位置：HikariPool.getConnection()（HikariCP源码第195行）
相关上下文：UserService.getUserById()（服务层代码第32行）

初步假设：

数据库连接池配置不当（HikariCP参数）
PostgreSQL服务内存泄漏
Kubernetes节点资源配额不足

计划的排查方向：

检查HikariCP连接池参数
分析PostgreSQL内存使用模式
验证节点资源配额
检查Pod调度策略

📝 2. 详细排查步骤

[步骤1] 检查HikariCP配置

操作内容：修改application.properties文件

spring.datasource.hikari.maximumPoolSize=20
spring.datasource.hikari.minimumIdle=10
spring.datasource.hikari.connectionTimeout=60000

使用kubectl exec -it <pod-name> -- curl http://localhost:8080/log?level=DEBUG
检查结果：连接超时错误仍出现，但连接池大小提升后Pod内存占用下降5%

[步骤2] 分析PostgreSQL内存

操作内容：执行pg_stat_activity查询

SELECT usename, application_name, client_addr, state, wait_type, wait_event 
FROM pg_stat_activity 
WHERE state='active' 
ORDER BY wait_event;

发现：有12个连接处于wait_event=BGWriter状态
查阅文档：BGWriter在缓冲区同步时占用大量内存

[步骤3] 调整PostgreSQL配置

修改postgresql.conf：

shared_buffers = 256MB
bgwriter_delay = 500ms

重启数据库服务：kubectl restart pod/db-service-postgresql

[步骤4] 验证节点资源

操作内容：检查节点资源使用

kubectl top nodes --no-headers

发现：节点1的Memory Available从1.2Gi降至400Mi

[步骤5] 优化Pod调度策略

修改Pod的Tolerations：

tolerations:
- operator: Exists
  key: node.kubernetes.io/memory-pressure
  effect: NoSchedule
- operator: Exists
  key: node.kubernetes.io/disk-pressure
  effect: NoSchedule

📝 3. 尝试的解决方案

方案一：调整HikariCP参数

提出背景：根据错误日志中的连接超时时间（30s）判断连接池配置不足
具体操作：
1. 将maximumPoolSize从10提升至20
2. 将connectionTimeout从30s延长至60s
执行结果：连接超时错误减少但Pod内存占用仍达95%

方案二：PostgreSQL内存优化

提出背景：日志显示内存耗尽错误
具体操作：
1. 将shared_buffers从128MB提升至256MB
2. 将bgwriter_delay从100ms调整为500ms
执行结果：数据库内存占用下降40%，错误率降低70%

方案三：节点资源扩容

提出背景：节点内存不足导致驱逐
具体操作：
1. 将节点1的Memory Limit从4Gi调整为8Gi
2. 增加节点CPU配额至4核
执行结果：Pod驱逐事件完全消除，错误率降至0.5TPH

方案四：Pod资源限制优化

提出背景：发现Pod实际内存使用超过声明值
具体操作：
1. 在Pod spec中添加：

resources:
  limits:
    memory: 3Gi
  requests:
    memory: 2Gi

执行结果：内存使用率稳定在85%以下

🎉 最终有效解决方案

数据库层优化：
- 将PostgreSQL的shared_buffers调整为256MB
- 将bgwriter_delay设置为500ms
- 添加work_mem=256MB参数优化排序算法

连接池调整：

spring.datasource.hikari.maximumPoolSize=20
spring.datasource.hikari.minimumIdle=10
spring.datasource.hikari.connectionTimeout=60000

Kubernetes配置：
- 修改Pod的Tolerations排除内存压力事件
- 在节点1上增加Memory Limit至8Gi
- 设置Pod资源限制：

resources:
  limits:
    memory: 3Gi
  requests:
    memory: 2Gi

监控策略：
- 添加Prometheus监控指标：
  - POSTGRESQL_Buffers（缓冲区使用率）
  - POSTGRESQL_BgWriter（后台写入状态）
- 配置Grafana预警规则（>90%时触发告警）

该方案实施后，系统在200TPS负载下持续运行2小时未出现异常，数据库连接成功率从75%提升至99.2%，Pod内存占用稳定在85%以内，符合Kubernetes集群的最佳实践要求。

优快云

博主分享

📥博主的人生感悟和目标

Java程序员廖志伟

📙经过多年在优快云创作上千篇文章的经验积累，我已经拥有了不错的写作技巧。同时，我还与清华大学出版社签下了四本书籍的合约，并将陆续出版。

《Java项目实战—深入理解大型互联网企业通用技术》基础篇的购书链接：https://item.jd.com/14152451.html
《Java项目实战—深入理解大型互联网企业通用技术》基础篇繁体字的购书链接：http://product.dangdang.com/11821397208.html
《Java项目实战—深入理解大型互联网企业通用技术》进阶篇的购书链接：https://item.jd.com/14616418.html
《Java项目实战—深入理解大型互联网企业通用技术》架构篇待上架
《解密程序员的思维密码--沟通、演讲、思考的实践》购书链接：https://item.jd.com/15096040.html

面试备战资料

八股文备战

场景	描述	链接
时间充裕（25万字）	Java知识点大全（高频面试题）	Java知识点大全
时间紧急（15万字）	Java高级开发高频面试题	Java高级开发高频面试题

理论知识专题（图文并茂，字数过万）

技术栈	链接
RocketMQ	RocketMQ详解
Kafka	Kafka详解
RabbitMQ	RabbitMQ详解
MongoDB	MongoDB详解
ElasticSearch	ElasticSearch详解
Zookeeper	Zookeeper详解
Redis	Redis详解
MySQL	MySQL详解
JVM	JVM详解

集群部署（图文并茂，字数过万）

技术栈	部署架构	链接
MySQL	使用Docker-Compose部署MySQL一主二从半同步复制高可用MHA集群	Docker-Compose部署教程
Redis	三主三从集群（三种方式部署/18个节点的Redis Cluster模式）	三种部署方式教程
RocketMQ	DLedger高可用集群（9节点）	部署指南
Nacos+Nginx	集群+负载均衡（9节点）	Docker部署方案
Kubernetes	容器编排安装	最全安装教程