见字如面,我是军哥!
互联网从业近 20年,原饿了么(阿里)技术总监,1号店早期核心员工,还是有资格聊这个话题,因为这种事见的多了。
今天的文章先回顾一下整个事件,然后分析到底是谁的责任。
文章不长,请耐心看完,必有收获!
昨天支付宝 P0 故障,我们来回顾一下整个事件。
1、事故回顾
先说一下,这是支付宝2025年的首个 P0 级事故。那么在互联网企业中,P0 是什么意思呢?
代表最高级别的事故,核心业务重要功能不可用,且影响范围广泛。
2025 年 1 月 16 日,多位支付宝用户在社交媒体发布订单支付页面截图称,自己在下午 14:40 - 14:45 时间段内,通过支付宝进行个人转账、信用卡支付、缴费等操作时,均在订单支付时提示“政府补贴”,减免优惠20%。
蚂蚁集团方面确认了这一事实。当问及支付宝平台系统出现上述“政府补贴bug”的准确时间段、影响区域范围以及所涉订单金额整体规模等,官方均未作出回应。
昨天晚上支付宝出了这么一个公告,图在最后。
从公告可以看出,支付宝危机公关最关键是四个字,认错改正,非常彻底,可能损失几千万甚至更多,但是此时狡辩没有意义,就认错就好了。这个点值得点赞,要不然今天就是支付宝被骂死上热搜了。
只有这样才能转危为安。
为什么呢?
支付宝的本质是资金存放点地方,是现代化的银行,资金安全是最重要的,所以资金安全大过天,如果出了问题把责任转嫁给消费者,以后谁敢用,这不但不要回,还白送消费者,敢于认错,这样大家还是会信任支付宝,话说哪个男人不犯错,知错就改是没问题的。
那么,这个 P0 故障的原因到底什么?责任人应该是谁?
2、事故原因和分析
我们来一一分析一下:
支付宝官方所说是运营配置了模版!
我们一个一个来排除责任哈。
假设是程序员的责任:就需要做到系统严格限制或者系统防呆,不是不可能,这需要程序员对业务很熟悉,且花很多时间在这个事上,这对于大多数程序员不是最重要的职责范畴,他们大多是按产品需求来开发产品,很多隐形的需求,大多数程序员是不知道的。
假设是产品经理的责任:产品在设计的时候为什么不考虑这种异常情况处理的?我相信他会考虑,但是异常规则太多了,他穷举不了,他也很无奈。
再比如说是配置模版运营人员的责任:有人就问了,不是有审批么?还有这么大的活动,不是要逐级审批的么?我只能告诉你审批领导并不懂细节的,哈哈。
所以,就在目前情况下,看起来,最大的责任方是运营负责人,其次是产品负责人,开发并没有责任。
那么有的人说,你说轻松啊,这个问题如何解决?
我给你支付宝等大公司一个系统性解决方案:
说正经的,我自己在 1 号店,饿了么就有这方面的开发和产品设计经验,
我非常了解他们运营配置,并且和他们一起审核过许多营销活动,业务同学捅出过篓子,放过篓子,也承担过责任,但是一直没有找到太好解决办法。
细想原因,传统的审核链条其实是责任链而不是风控链,由下向上逐级审核,但是越往上不是越不了解细节吗?
怎么能寄希望于上位者发现潜藏在细节中的魔鬼呢?他可能连细节都不清楚好伐!
传统的做法只能是不停强调责任感和责任意识,未来恐怕还是要靠引入 AI 用训练过的模型来判断配置中的不合理。
观点总结:
人来做的事都会出错,只能通过一定的手段来减少出错,所以初期请用 AB 角,多人 check 的办法;
中期用系统防呆就是使用一些已有规则不合理时,来提示用户这个操作不对;
长期可以用 AI 训练过的模型自学习来判断配置中的是否合理,应该是终极解决方案了。
所以,这个锅看起来是「运营的」,但是本质是「产品经理|设计时对不合理的规则,可能分类了,但是没有完全穷举,存在麻痹大意的心理,所以开发没有办法来写出完美的代码,并且这个不是 bug ,是运营事故。
你认可么?
若觉得,我说的在理的,给我点赞,或者转发,重申一句,程序员不是这个 P0 事故的最大责任方。
关注我,一个敢于说实话,说真话的互联网老程序员,下篇更精彩,想和我交流不同看法的,请加我微信(jeff_cheng01)~

1万+





