一、编码介绍
字符编码是一种将字符映射到数字代码的规则或方式。在计算机中,所有的数据最终都以二进制形式存储,包括文本数据。因此,要在计算机中存储和处理文本,就需要将字符转换为对应的数字编码。
字符编码可以分为两种基本类型:固定长度编码和可变长度编码。
-
固定长度编码:每个字符都被映射到固定长度的二进制序列。ASCII(美国信息交换标准码)就是最著名的固定长度编码,它使用7位二进制表示128个字符,包括26个拉丁字母、阿拉伯数字、标点符号等。
-
可变长度编码:不同的字符可能被映射到不同长度的二进制序列。Unicode是一种常用的可变长度编码,它支持几乎所有世界上使用的字符,包括各种语言的字母、符号、表情符号等。而UTF-8、UTF-16和UTF-32则是Unicode的实现方式之一。
下面是一些常见的字符编码:
-
ASCII(American Standard Code for Information Interchange):一种7位固定长度编码,用于表示英文字母、数字和一些常用符号,共128个字符。
以下是ASCII码表的部分内容:
ASCII码 字符 描述 --------------------------------- 0 NUL 空字符 1 SOH 标题开始 2 STX 文本开始 3 ETX 文本结束 4 EOT 传输结束 5 ENQ 请求 6 ACK 确认 7 BEL 响铃 8 BS 退格 9 HT 水平制表符 10 LF 换行 11 VT 垂直制表符 12 FF 换页 13 CR 回车 14 SO 选择 15 SI 取消选择 16 DLE 数据链路转义 17 DC1 设备控制1 18 DC2 设备控制2 19 DC3 设备控制3 20 DC4 设备控制4 21 NAK 拒绝接收 22 SYN 同步 23 ETB 块结束 24 CAN 取消 25 EM 结束媒体 26 SUB 替换 27 ESC 转义 28 FS 文件分隔符 29 GS 组分