unicode与utf-8

原创已于 2025-03-13 15:56:27 修改 · 799 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#UTF-8 #unicode

于 2025-03-13 15:52:41 首次发布

unicode

计算机最底层只能表示0和1，为了让除了0和1的其他字符在计算机中表示，所以制作了字符集来用0和1表示其他字符，字符集中通过0和1的不同组合来表示表中对应的字符

最早的编码集---ASCII编码（American Standard Code for Information Interchange，美国信息交换标准代码）是一种基于拉丁字母的字符编码系统，它主要用于电子通信。ASCII编码表包含了128个或256个字符，这些字符包括了大小写英文字母、数字0到9、标点符号、特殊符号以及控制字符

西方国家创建了ASCII编码，都知道的西方字符比较少所以256个位置足够用了，后面其他国家开始用的时候就完全不够用了，就像中国就有几万个，所以编码集就开始不断优化，比如后来的gb2312，GBK1.0等编码集可存储字符数量不断变多，发展到现在最完善的字符集就是unicode

定义：

Unicode（统一码、万国码、单一码）是一个国际标准字符集，它为每种语言中的每个字符设定了统一且唯一的二进制编码，以满足跨语言、跨平台进行文本转换和处理的需求。

起源与发展：

Unicode编码的历史可以追溯到20世纪60年代，当时计算机科学家们意识到不同计算机系统使用不同的字符编码方式，导致文本和数据在不同系统间传输时出现混乱和错误。为解决这一问题，国际组织开始致力于制定统一的字符编码标准。1987年，Unicode联盟成立，开始制定Unicode编码标准。Unicode标准于1990年开始研发，1994年正式公布

特点：

统一性：Unicode为世界上几乎所有的字符集和符号提供了唯一的数字标识符，确保了字符在不同计算机系统和编程环境中的一致性和互操作性。
扩展性：Unicode编码体系庞大，能够容纳超过110万个码位，涵盖了全球范围内的绝大多数语言字符，为未来的字符扩展提供了充足的空间。
兼容性：Unicode与多种传统字符编码方案（如ISO 8859、GB2312等）保持兼容，使得旧有编码方式可以平滑过渡到Unicode编码。

Unicode与UTF-8的关系

联系：

Unicode是一个字符集，它定义了世界上所有字符的编码。而UTF-8是一种字符编码方式，用于将Unicode字符编码为字节序列，以便在计算机中存储和传输。

UTF-8是实现Unicode编码的一种具体方式。Unicode定义了字符的编码，而UTF-8定义了如何将这些编码转换为字节序列。

字符表示长度：Unicode编码通常使用固定长度的字符表示（尽管实际上存在多种Unicode编码方式，如UTF-16、UTF-32等，它们分别使用16位和32位来表示一个字符，但在此处我们主要讨论的是Unicode字符集本身与UTF-8的对比），而UTF-8则使用可变长度的字节序列来表示字符。