这几天在弄编码问题,有些心得就写下来
1、utf8编码详细看这个:http://baike.baidu.com/view/742823.htm
2、unicode编码的具体编码可以看看这个:http://www.knowsky.com/resource/gb2312tbl.htm
从上面可以得出下面明显的结论:
1、utf编码第一字节以及所表示的unicode范围:
|
字节总数 |
1 |
2 |
3 |
4 |
|
第一字节范围 |
|
C0-DF |
E0-EF |
F0-F7 |
|
表示的unicode范围 |
0-7F |
80-7FF |
800-FFFF |
10000-1FFFFF |
|
上面一行10进制表示 |
0-127 |
128-2047 |
2048-65535 |
65536-2097151 |
2、随后的几个字节范围都是:0x80~0xBF
3、unicode开始于:0xA1A0(41376),结束于:0xFEFF(65279);其中中文编码从:0xB0A0(45216)开始,结束于:0xF7F0(63472)
小结:
1、unicode的转换成utf8后都在3字节范围内
2、因此utf8编码的unicode第一个字节都在:0xE0~0xEF之间,后续字节在0x80~0xBF之间
3、3个字节后面可能跟着0~127范围内的ascii编码
本文详细介绍了UTF-8和Unicode编码的基本概念及其转换原理。重点解释了UTF-8编码中不同字节数对应的Unicode范围,以及如何通过特定的字节范围来判断一个字符是否属于中文编码。
55万+

被折叠的 条评论
为什么被折叠?



