utf-8与Unicode

原创于 2015-12-08 14:07:42 发布 · 430 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#unicode #utf-8 #编码

前端专栏收录该内容

2 篇文章

订阅专栏

本文解析了UTF-8和Unicode等编码方式的基本概念及应用场景，详细介绍了不同编码方式如何处理英文、中文和其他字符，如UTF-8对英文使用8位，中文使用24位编码，而GBK则统一采用双字节表示所有字符。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

UTF-8是一种编码，解码的算法，将编码转为2进制的数据。
Unicode是一种字符集用于把字符映射到编码。
Eg. Hello -> (Unicode) 104 101 108 108 111
->(UTF-8) 1101000 1100101 1101100 1101100 1101111

UTF-8 is an encoding used to translate numbers into binary data.
Unicode is a character set used to translate characters into numbers.

UTF-8:
1 byte: Standard ASCII
2 bytes: Arabic, Hebrew, most European scripts (most notably excluding Georgian)
3 bytes: BMP(不包括一些古老的符号，一些中日韩字符)
4 bytes: All Unicode characters
它对英文使用8位（即一个字节），中文使用24为（三个字节）来编码。
GBK：
不论中、英文字符均使用双字节来表示，为了区分中文，将其最高位都设定成1。
UTF-16:
2 bytes: BMP
4 bytes: All Unicode characters