UTF-8 编码问题

今天太囧了,面试被问到一个编码的问题,原因是在简历里列了一个曾经写的 Unicode 转换的小程序,不过也是不知道多少年前的事情,全忘了,唉,不爽。

 

Unicode 编码,所有字符一律 2 个字节(有些特殊 4 个字节),它可以表示世界上任何一种符号,具有通用性,但是由于 ASCII 字符占 1 个字节,这就造成了 ASCII 字符的第一个字节总是 0 ,浪费了空间。在实际操作中,就对 Unicode 码进行编码,常用的方式就是 UTF-8。UTF-8 采用变长方式存储,长度 1-6 字节,一般情况下是 1,3 字节。这种做法是,英文字符占 1 个字节,汉字等占 3 个字节,由于英文作为世界语言,用的最广最多,所以就牺牲其他国家语言的表示方式了,没办法,谁叫它牛呢。

 

例子如下:

 

字符 'z'

ASCII                      为 0x7f ,二进制 0111 1111

Unicode big endian 为 0x00 0x7f ,二进制为 0000 0000 0111 1111

UTF-8                      为 0x7f ,二进制 0111 1111

 

字符 '我'

Unicode big endian 为 0x62 0x11,二进制为 0110 0010 0001 0001

UTF-8                      为 0xe6 0x88 0x91 ,二进制 1110 0110 1000 1000 1001 0001

注意:红色的部分为 UTF-8 的固定部分,剩下的就是 Unicode big endian 的代码

 

 

可以做个试验:

打开记事本,输入汉字:“我”

以 ANSI 保存为                        ansi.txt

以 Unicode 保存为                   unicode.txt

以 Unicode big endian 保存为 unicode_b.txt

以 UTF-8 保存为                       utf-8.txt

 

分别用WinHex或UltraEdit等工具以二进制文件打开,发现:

ansi.txt

CE D2 - 1100 1110 1101 0010

 

Unicode.txt

FF FE 11 62 - 1111 1111 1111 1110 0001 0001 0110 0010

 

unicode_b.txt

FE FF 62 11 - 1111 1110 1111 1111 0110 0010 0001 0001

 

utf-8.txt

EF BB BF E6 88 91 - 1110 1111 1011 1011 1011 1111 1110 0110 1000 1000 1001 0001

 

相信大家看出其中的玄机了:

  • 对汉字而言,ANSI 其实就是 GBK。

在VC6中,

 

char *p="我"; 

 

循着 p 查看其内容为 CE D2

 

在Java中,

 

	String s = new String("我");
	try {
		byte[] b = s.getBytes();
		System.out.println(b[0] + 0);
		System.out.println(b[1] + 0);
	} catch (Exception e) {
		e.printStackTrace();
	}

 
结果输出
-50
-46
其实就是 CE D2

 

  • Unicode 和 Unicode big endian 区别在于顺序问题。(简直就是废话)

以 Unicode 保存,会在前面加上 FF FE 或者 FE FF 。

  • Unicode big endian 和 UTF-8 差别在于加上了固定的字符,样式如下:

0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx

11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

 

x为Unicode的编码。1 的个数表示这个编码的字节数。搞得有点像 ABCDE 类 IP 地址似的。

对于 1 个字节的,就是 ASCII 码,占 1 个字节。

对于 2 个字节的,00 80 - 07 ff ,占 2 个字节,08 00 - ff ff,占 3 个字节。

对于 4 个字节的,以此类推。4 个字节一般都是些特殊字符或是备用空间。

 

一个有意思的现象就是,"联通"这个词的 ANSI/GBK:C1 AA CD A8。

二进制:1100 0001 1010 1010 1100 1101 1010 1000

标注一下看得更清楚:1100 0001 1010 1010 1100 1101 1010 1000

正好符合 UTF-8 的规则,但是 0001 1010 1011 0110 1000 确无对应的显示字符。

因此,打开记事本,输入"联通" 两个字,以 ANSI 保存,再打开就是乱码。(一个黑框)

 

倒霉遇上了一个搞编码的面试官,还说到 MD5 ,晕,最后让写代码,实现字符数组编程字符串:

 

给出:a[]={0xFE,0x8E,0x7F}

返回:FE8E7F

 

乱写一通,交差了事,基本宣告面试的终结,又打一次酱油!

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值