UTF-8编码原理与应用-优快云博客

本文详细介绍了UTF-8编码的特点、规则及其在不同语言环境下的应用，包括如何将Unicode码转换为UTF-8码及反之的过程。

所有的编码必须兼容ASCII编码方案，

UTF8并不算是一种电脑编码，而是一种储存和传送的格式。

我们中国的编码有gb2312 --->> gbk -->> gb18030

UTF-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。

UTF-8的编码规则很简单，只有二条：

1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。

2）对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

unicode 是一种编码表格，例如，给一个汉字规定一个代码。类似 GB2312,GB1980, GB18030等，只不过字集不同。 

一个unicode码可能转成长度为一个BYTE,或两个，三个，四个BYTE的UTF8码，取决于unicode码的值。英文unicode码因为值小于0x80,只要用一个BYTE的UTF8传送，比送unicode两个BYTEs快。 
UTF8是为传送unicode而想出来的“再编码”方法罢了。 
UTF8转unicode用我上面给的程序反算即可。