使用WireShark分析HTTP协议时几种常见的汉字编码
本文由优快云-蚍蜉撼青松【主页:http://blog.youkuaiyun.com/howeverpf】原创,转载请注明出处!
在使用WireShark分析HTTP协议的过程中,我们自然是首先要完成解密(若是使用了SSL)、重组(若是使用了chunked分段编码)、解压(若是使用了压缩编码)【幸运的是,除了加解密,这一系列的工作都已经在Wireshark1.8以后的版本中得到了支持】 ,得到一个基本可直接识别的HTTP报文。但此时的报文中还是会有一些部分内容,他们有着固定地格式,表面看起来也是ASCII字符,但是实际表达的意思却不能直接看得出来。这些不能直接识别的部分,很多是经过某种编码变换的中文字符串。本文要介绍的正是一些我曾经遇到并纠结过的汉字编码。
一、URL编码
编码实例:%E5%9B%9B%E5%B7%9D%E5%A4%A7%E5%AD%A6【下图中kw=之后,意为:四川大学】
图1 使用百度贴吧客户端发表回复时的HTTP请求示例
常见位置:HTTP请求行中的URI(可能是请求静态网页时的中文路径、或是请求动态网页时的中文查询字符串)
HTTP请求正文中(当请求报文头部Content-Type头域的值为application/x-www-form-urlencoded时,如图1)