1、UTF-8编码实验
严
二进表示
100111000100101
按UTF-8格式,6位分组拆分
100 111000 100101
UTF-8编码 合成一个数 16进制表示
11100100 10111000 10100101 111001001011100010100101 E4B8A5
格
二进表示
110100000111100
按UTF-8格式,6位分组拆分
110 100000 111100
UTF-8编码 合成一个数 16进制表示
11100110 10100000 10111100 111001101010000010111100 E6A0BC
在文件中,前三个字节“EF BB BF”表示这是UTF-8编码
如“严格”在UTF-8格式文件中表示为:
EF BB BF E4 B8 A5 E6 A0 BC
2、Unicode
3、Unicode big endian
严
二进表示
100111000100101
按UTF-8格式,6位分组拆分
100 111000 100101
UTF-8编码 合成一个数 16进制表示
11100100 10111000 10100101 111001001011100010100101 E4B8A5
格
二进表示
110100000111100
按UTF-8格式,6位分组拆分
110 100000 111100
UTF-8编码 合成一个数 16进制表示
11100110 10100000 10111100 111001101010000010111100 E6A0BC
在文件中,前三个字节“EF BB BF”表示这是UTF-8编码
如“严格”在UTF-8格式文件中表示为:
EF BB BF E4 B8 A5 E6 A0 BC
2、Unicode
其中“FF FE”表明是小头方式存储
3、Unicode big endian
其中“FE FF”表明是大头方式存储
4、“严”
1)在ASCII格式文件中:
D1 CF
2)在Unicode 格式文件中,FF EE是格式说明前缀
FF FE 25 4E
3)在Unicode big endian格式文件中,FE FF是格式说明前缀
FE FF 4E 25
4)在UTF-8格式文件中,EE BB BF是格式说明前缀
EF BB BF E4 B8 A5