UTF8编码

UTF-8编码解析

最新推荐文章于 2024-09-13 11:02:40 发布

转载最新推荐文章于 2024-09-13 11:02:40 发布 · 400 阅读

文章标签：

#transformation #header #character #hex #encoding #互联网

C# 学习笔记专栏收录该内容

121 篇文章

订阅专栏

本文介绍了UTF-8编码的基本概念及其编码原理。UTF-8是一种可变长度的Unicode字符编码方式，兼容ASCII并广泛应用于文件存储和网络传输。文章详细解释了如何进行UTF-8编码与解码，并给出了具体的例子。

UTF-8（8 位元 Universal Character Set／Unicode Transformation Format）是一种针对 Unicode 的可变长度字符编码。它可以用来表示 Unicode 标准中的任何字符，且其编码中的第一个字节仍与 ASCII 相容，这使得原来处理 ASCII 字符的软件无须或只须做少部份修改，即可继续使用。因此，它逐渐成为电子邮件、网页及其他储存或传送文字的应用中，优先采用的编码

UTF8并不算是一种电脑编码，而是一种储存和传送的格式，如前所述，每个Unicode/UCS字符都以 2或4个bytes来储存，看看以下的比较：

以"I am Chinese"为例

用ANSI储存：12 Bytes

用Unicode/UCS2储存：24 Bytes + 2 Bytes(header)

　　用UCS4储存：48 Bytes + 4 Bytes(header)

　　以"我是中国人"为例

　　用ANSI储存：10 Bytes

　　用Unicode/UCS2储存：10 Bytes + 2 Bytes(header)

　　用UCS4储存：20 Bytes + 4 Bytes(header)

　　由此可见直接以Unicode/UCS的原始形式来储存是一种极大的浪费，而且也不利于互联网的传输(中文稍为合算一点^_^)。

　　有见及此，Unicode/UCS的压缩形式－－UTF8出现了，套用官方网站的首句话『UTF-8 stands for Unicode Transformation Format-8. It is an octet (8-bit) lossless encoding of Unicode characters.』，由于UTF也适用于编码UCS，故亦可称为『UCS transformation formats (UTF)』

　　UTF8是以8bits即1Bytes为编码的最基本单位，当然也可以有基于16bits和32bits的形式，分别称为UTF16和UTF32，但目前用得不多，而UTF8则被广泛应用在文件储存和网络传输中。

　　编码原理

　　先看这个模板：

　　UCS-4 range (hex.) UTF-8 octet sequence (binary)

　　0000 0000-0000 007F 0xxxxxxx

　　0000 0080-0000 07FF 110xxxxx 10xxxxxx

　　0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx

　　0001 0000-001F FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

　　0020 0000-03FF FFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

　　0400 0000-7FFF FFFF 1111110x 10xxxxxx ... 10xxxxxx

　　编码步骤：

　　1) 首先确定需要多少个8bits(octets)