目录:
项目背景
本篇记录WebSocket :用WebSocket实现推送你必须考虑的几个问题 onError错误用法导致的一个bug(同一种client类型只能登陆一个设备,具体代码可以参见 : http://download.youkuaiyun.com/download/shangmingtao/9920532) ,代码:
/*
Close
*/
@OnClose
public void onClose(@PathParam("userId") String userId,
Session session) {
log.info("[WebSocketServer] Close Connection : userId = " + userId);
WebSocketUtils.remove(userId);
}
/*
Error
*/
@OnError
public void onError(@PathParam("userId") String userId,
Throwable throwable,
Session session) {
log.info("[WebSocketServer] Connection Exception : userId = "+ userId + " , throwable = " + throwable.getMessage());
WebSocketUtils.remove(userId);//清除userId和session对应关系
}
WebSocket连接流程图:
bug复现条件 :
client端连接上WebSocket后断开网络 ->打开网络 ->重新连接.
bug现象:
服务端抛出TCP reset异常, reset异常触发onError回调方法, 上述代码中onError中会清除userId和session的对应关系.但实际清除的并不是旧链接的session和userId的对应关系.因为我们用map或者redis存储userId和session对应关系时是一个K-V存储,新的会覆盖旧的.
bug原因:
断开网络前:
断开网络后:
造成RST包的原因 :
- 端口未打开
- 请求超时
- 提前关闭 (当本端断开连接(不论什么原因TCP四次挥手未到达对端),另一端发送消息到本端会触发本端回复RST包),这也是本bug原因.至于[PSH,ACK]具体是那条消息的ACK我没有深究.
解决思路&方案:
很多网上WebSocket服务端代码对于生产环境应用来讲都误导了大家,onClose方法和onError方法处理一模一样.但实际这两个方法分别是不同情况的回调.一个是关闭一个是异常.虽然很多时候触发onError方法后会触发onClose.比如网络异常导致连接异常,然后ws关闭了连接.但是也有一些情况是仅触发onError方法.比如上边的server端close掉连接,然后接到RST包这种情况.
所以我们的处理方案是在onError回调中仅打印一条日志或者针对不同的异常写逻辑.无论怎么处理都不可以在onError方法中接触userId和session之间的对应关系.