什么是Unicode编码

最新推荐文章于 2024-08-20 14:21:59 发布

原创最新推荐文章于 2024-08-20 14:21:59 发布 · 1.8k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#语言 #microsoft #sybase #windows #javascript #apple

Unicode作为一种流行解决方案，通过双字节编码突破ASCII码256字符的限制，支持多种语言字符集，确保全球软件中字符的一致性和互操作性。

UNICODE 是目前用来解决 ASCII 码 256 个字符限制问题的一种比较流行的解决方案。大家知道，ASCII 字符集只有256个字符，用 0-255 之间的数字来表示。包括大小写字母、数字以及少数特殊字符；如标点符号、货币符号等。对于大多数拉丁语言来说，这些字符已经够用。但是，许多亚洲和东方语言所用的字符远远不止256个字符。有些超过千个。人们为了突破 ASCII 码字符数的限制，试图用一种简单的方法来针对超过256个字符的语言编写计算机程序。于是 UNICODE 应运而生。UNICODE 通过用双字节来表示一个字符，从而在更大范围内将数字代码映射到多种语言的字符集。 Unicode给每个字符提供了一个唯一的数字，不论是什么平台，不论是什么程序，不论什么语言。Unicode标准已经被这些工业界的领导们所采用，例如：Apple, HP, IBM, JustSystem, Microsoft, Oracle, SAP, Sun, Sybase, Unisys和其它许多公司。最新的标准都需要Unicode，例如XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML等等，并且，Unicode是实现ISO/IEC 10646的正规方式。许多操作系统，所有最新的浏览器和许多其他产品都支持它。Unicode标准的出现和支持它工具的存在，是近来全球软件技术最重要的发展趋势。

为什么使用Unicode？
基本上，计算机只是处理数字。它们指定一个数字，来储存字母或其他字符。在创造Unicode之前，有数百种指定这些数字的编码系统。没有一个编码可以包含足够的字符：例如，单单欧州共同体就需要好几种不同的编码来包括所有的语言。即使是单一种语言，例如英语，也没有哪一个编码可以适用于所有的字母，标点符号，和常用的技术符号。这些编码系统也会互相冲突。也就是说，两种编码可能使用相同的数字代表两个不同的字符，或使用不同的数字代表相同的字符。任何一台特定的计算机（特别是服务器）都需要支持许多不同的编码，但是，不论什么时候数据通过不同的编码或平台之间，那些数据总会有损坏的危险。比如，简体中文（GB）、繁体中文（BIG5）、日文中，“赵”都是一个字，但是编码不同。在不同的编码下，BIG5的赵是0xBBAF，而0xBBAF在GB里面就被显示为“化”，这就是乱码。而Unicode采用统一的编码，“赵”只有一个，不必管他在哪种文字里。

Unicode的优点是什么？
举一个最明显的例子就是Windows 2000/XP以及微软Office2000及其后的产品。因为这些软件都是Unicode内核，因此，无论何种文字，都可以在上面正常显示，而且是同屏显示。以前，简体中文的Word文件拿到英文版打开就会是乱码，简体中文的程序在Windows英文版上运行会出现乱码，而现在一切都解决了。