1.汉字utf8编码识别
utf8字符编码特征:
1字节:0xxxxxxx
2字节:110xxxxx 10xxxxxx
3字节:1110xxxx 10xxxxxx 10xxxxxx (汉字一般落在这个区间)
4字节:11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
5字节:111110 xx 10 xxxxxx 10 xxxxxx 10 xxxxxx 10 xxxxxx
6字节:1111110x 10 xxxxxx 10 xxxxxx 10 xxxxxx 10 xxxxxx 10xxxxxx
一个汉字通常占3个字节,也就是以1110开头,十六进制表示是E,所以在抓到的数据包里,看到E开头的三字节,通常就是UTF8编码,这招屡试不爽啊!
eg: 提交一段参数为“金城”的url, 截取到一段url的内容是 %e9%87%91%e5%9f%8e
%号是url编码,将所有的%号忽略掉,得到的就是汉字的编码。E9 87 91 E5 9F 8E
随便找一个在线解码工具,解码