更新SQL未走索引导致业务定时任务执行阻塞

本次故障发生在业务服务a,表现为超时和不可用。问题源于业务服务同步操作耗时过长,线程负载过高,加之业务表未添加索引导致SQL执行时间过长。回滚服务时因未同步最新配置而失败。解决方案包括为业务表添加索引,服务解耦,确保回滚配置同步,加强性能测试和慢查询报警。此外,报警系统需支持分级报警。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【影响范围】
业务服务a不可用

【故障表现】
业务操作超时,导致服务不可用。

【处理过程】
7.33钉钉开始报警
7.48用户首次反馈问题
7.53接到报警电话,然后查看钉钉报警,判断是服务挂了。
7.57重启了服务,问题仍然存在。
7.57开发排查问题,发现实时统计时间很长,达到了6s, 判断是线程负载过重影响到了业务线程。
8.02测试回滚服务失败,原因是没有同步回滚配置。
8.19修改线程参数。
8.24重新发布服务后恢复正常。(因为回滚失败所以耽误了几分钟)

【原因分析】
直接原因: 针对业务服务同步操作较慢的问题,原先已调整了队列参数,由原来延迟2小时提升至延迟10分钟, 但对于早高峰并发缺乏充分评估,造成服务线程被占满,服务响应超时,导致服务被迫下线。
根本原因: 业务表没有添加索引,单个更新sql的执行时间达到4s左右。

回滚失败原因:服务没有同步最新的回滚配置。

其他原因: 缺少对早高峰并发的精确评估,缺少必要的性能测试

【改进措施】

1、 业务表添加索引,执行时间降到毫秒级。
2、将业务服务统计服务独立部署,与业务服务解耦,避免统计服务异常造成业务服务雪崩。
3、将所有服务都排查一遍,确保都同步最新回滚配置。
4、对涉及并发处理业务的修改,需要必要的性能测试。
5、慢查询sql报警缺失(需要运维支持)。
6、对业务报警的频率支持分级报警。

### 解决 PP-OCRv4 出现的错误 当遇到 `WARNING: The pretrained params backbone.blocks2.0.dw_conv.lab.scale not in model` 这样的警告时,这通常意味着预训练模型中的某些参数未能匹配到当前配置下的模型结构中[^2]。 对于此问题的一个有效解决方案是采用特定配置文件来适配预训练权重。具体操作方法如下: 通过指定配置文件 `ch_PP-OCRv4_det_student.yml` 并利用已有的最佳精度预训练模型 (`best_accuracy`) 来启动训练过程可以绕过上述不兼容的问题。执行命令如下所示: ```bash python3 tools/train.py -c configs/det/ch_PP-OCRv4/ch_PP-OCRv4_det_student.yml ``` 该方案不仅解决了参数缺失带来的警告,还能够继续基于高质量的预训练成果进行微调,从而提升最终检测效果。 关于蒸馏的概念,在机器学习领域内指的是将大型复杂网络(teacher 模型)的知识迁移到小型简单网络(student 模型)。这里 student 和 teacher 的关系是指两个不同规模或架构的神经网络之间的指导与被指导的关系;其中 teacher 已经经过充分训练并具有良好的性能,而 student 则试图模仿前者的行为模式以达到相似的效果但保持更高效的计算特性。 至于提到的 `Traceback` 错误信息部分,由于未提供具体的跟踪堆栈详情,难以给出针对性建议。不过一般而言,这报错往往涉及代码逻辑错误或是环境配置不当等问题。为了更好地帮助定位和解决问题,推荐记录完整的异常日志,并仔细检查最近修改过的代码片段以及确认依赖库版本的一致性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值