字符编码全解析
字符编码基础概念
在文字系统里,字符是最基本的单位,像英文字母,以及中文、日文等表意文字系统中的表意符号。在书面形式中,字符通过其形状(字形)来识别,但这种识别并不精确,会受多种因素影响。比如,连字符在数学表达式里会被认成减号;一些希腊字母和拉丁字母形状相同,可在两种书写体系中却被视为不同字符。
计算机只能理解数字,确切地说是 0 和 1 组成的比特。因此,随着计算机的出现,需要把字符转换成计算机内存中的代码(比特组合),这样文本(字符序列)才能被存储和重现。然而,不同计算机可能用相同的比特组合表示不同字符,这就可能导致一个计算机系统存储的文本在另一个系统中被错误解读。所以,为了让两个计算机系统正确交换信息,一个系统必须能明确理解另一个系统用比特组合表示的字符编码形式,反之亦然。
在探讨常用的字符编码之前,先了解几个常用术语:
- 抽象字符 :是文本信息的基本单位,例如拉丁大写字母 A(‘A’)。
- 字符集 :指要编码的字符集合,可分为固定和开放两种。固定字符集一旦确定要编码的字符集合就不再改变,像 ASCII 和 POSIX 可移植字符集;开放字符集则随时可添加新字符,如 Unicode 和 Windows 西欧字符集,欧元符号和印度卢比符号就是因为 Unicode 是开放字符集才被添加进去的。
- 编码字符集 :是从一组非负整数(也叫代码位置、代码点、代码值、字符编号和代码空间)到一组抽象字符的映射。映射到字符的整数叫该字符的代码点,这个字符就是编码字符。编码字符集也被称作字符编码、编码字符集、字符集定义或代码页。
超级会员免费看
订阅专栏 解锁全文
1948

被折叠的 条评论
为什么被折叠?



