在写后台的时候遇到一个需求:
我的python后台服务器需要建立一个服务端socket跟C++客户端进行一些数据的交互
出现问题:
Python socket.recv(1024)接收到的数据是格式不正确的。
比如客户端传过来的数据格式是“4,10080”
服务端接收到的数据格式是 “ 4, 1 0 0 8 0”
分析问题:
客户端传输过来的数据类型是unicode,但是并不知道是什么样的编码解码类型,坑!!!非常坑!!!
然后打印Python接收到的初始数据发现是str类型,说明了Python的socket.reccv()对数据流进行了编码
于是在尝试了N种解码方式以后终于发现,用“utf-16”的解码方式能够从原始接收数据中得到正确的unicode数据
第二波问题:
在获取到正确的unicode数据进行多种方式编码,发现编码后的string数据都是“4, 10080/x00”
第二波分析问题:
因为未知客户端那边的编码解码方式,是不是因为我的编码方式和客户端的解码方式是不一样的,所以取到的数据是不正确的
结论:
1. unicode的出现是在C和C++之后,也就是说C和C++的unicode数据默认是没有编码解码类型,但是人为强加转换好像也是可以的,这点我不确定。所以“我的编码方式和客户端的编码方式不一致导致问题”的猜想是不对的。
2. C++的客户端程序是MFC程序,发过来的数据类型是CString,C++的字符串是以/0字符结尾的,所以/x00应该是结束符的转换导致的结果,后来换了别的数据也是同样有一样的后面字符,加深了我对这个猜想的认证

本文讲述了在Python后台服务器与C++客户端通过socket进行数据交互时遇到的编码解码问题。首先,Python socket.recv()接收到的数据格式不正确,经过分析发现需要使用"utf-16"解码才能得到正确的unicode数据。然而,当尝试编码回原始格式时,数据尾部出现"x00"字符。最终,作者推测这可能是由于C++的字符串以/0字符结尾,导致转换问题。总结教训,强调在不同语言间进行数据交互时,特别是涉及中文时,了解并正确处理字符集非常重要。
最低0.47元/天 解锁文章
2782

被折叠的 条评论
为什么被折叠?



