引言
最近有项目上线,虽然PV巨大(1kw/天),但整体复杂度不高,主要还是靠CDN抗流量,但就是这么个项目,遇到了两个意料之外的非程序级问题。
扎心了,扎心了,扎心了;罪魁祸首其实是开发人员都特别容易忽略的DNS。
问题描述
- 微博+微信授权获取个人信息,突然发现都不行了
- 内网CI系统,发布线上和测试都失败了
说着容易,但实际上当时急着上线,客户着急花钱,几百万银子呀,客户在提修改,兄弟们都奔溃了,实在是不知道啥原因,难道只能认栽吗?
– 以上都是废话。。。。
解决思路
- 排查,先排查CI系统,代码上不了服务器,这不要命么,总不能一直手动更新吧,一顿操作,shell、php、python都查了个遍、无问题
- 排查,后排查项目程序,客户改的太频繁,负责后端的兄弟都失去自信了,最终一个挨个方法查无问题
- 排查,程序没问题,那就是服务器了,看zabbix报警,看网络跑满、看服务器error_log,一顿操作无问题无问题
- 客户着急上线、商务催着发版、兄弟们依然崩溃(凌晨1点了呀)
- 一顿操作猛如虎,原来是个250呀
点燃一根烟,冷静、冷静、冷静,程序没错、服务器正常、网络正常,那么CI用域名了,微博用域名了,微信也用域名了,难道DNS出问题了么???
ping: unknown host api.weixin.qq2.com
- 原来DNS挂了,