这几天在弄编码问题,有些心得就写下来
1、utf8编码详细看这个:http://baike.baidu.com/view/742823.htm
2、unicode编码的具体编码可以看看这个:http://www.knowsky.com/resource/gb2312tbl.htm
从上面可以得出下面明显的结论:
1、utf编码第一字节以及所表示的unicode范围:
字节总数 |
1 |
2 |
3 |
4 |
第一字节范围 |
|
C0-DF |
E0-EF |
F0-F7 |
表示的unicode范围 |
0-7F |
80-7FF |
800-FFFF |
10000-1FFFFF |
上面一行10进制表示 |
0-127 |
128-2047 |
2048-65535 |
65536-2097151 |
2、随后的几个字节范围都是:0x80~0xBF
3、unicode开始于:0xA1A0(41376),结束于:0xFEFF(65279);其中中文编码从:0xB0A0(45216)开始,结束于:0xF7F0(63472)
小结:
1、unicode的转换成utf8后都在3字节范围内
2、因此utf8编码的unicode第一个字节都在:0xE0~0xEF之间,后续字节在0x80~0xBF之间
3、3个字节后面可能跟着0~127范围内的ascii编码