连接2:https://blog.youkuaiyun.com/gcszzu/article/details/84729804
我自己的拙见:
根据连接2的内容,自己操作了一遍,做了如下记录:
汉字:中
Unicode编码10进制 :20013
Unicode转UTF-8换规则
1个字节:Unicode码为0 - 127
2个字节:Unicode码为128 - 2047
3个字节:Unicode码为2048 - 0xFFFF
4个字节:Unicode码为65536 - 0x1FFFFF
5个字节:Unicode码为0x200000 - 0x3FFFFFF
6个字节:Unicode码为0x4000000 - 0x7FFFFFFF
0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
提示:几个字节xxx前面有几个1
20013的二进制:
0100111000101101
20013占三个字节,因此使用下面的规则:
1110xxxx 10xxxxxx 10xxxxxx
20013分段:
0100 111000 101101
20013填充:依次从后向前填入格式中的x,多出的位补0
11100100 10111000 10101101
编码16进制:E4 B8 AD