(文本)字符((Text)Character):文本的基本信息单位
- 文字字符:用于记录语言的核心符号,如中文的 “的、了、在”,英文的 “the、is”,日文的 “の、は” 等。
- 数字字符:表示数量或顺序的符号,包括阿拉伯数字(0-9)、罗马数字(Ⅰ、Ⅴ、Ⅹ)等。
- 标点符号:辅助表达语气或停顿,如逗号(,)、句号(.)、感叹号(!)、引号(“”)等。
- 特殊符号:用于特定场景的功能性符号,如数学符号(+、=、√)、货币符号($、€、¥)、表情符号(😂、👍)、空格符等。
在计算机中,字符无法直接存储,需通过字符编码(将字符映射为二进制数)实现数字化。
常见的编码标准
- SCII 码:早期用于表示英文字符,仅包含 128 个字符(字母、数字、基础符号)。
- Unicode:全球化编码标准,涵盖几乎所有语言的字符(包括中文、日文、 emoji 等),其中 UTF-8 是最常用的实现方式。
- GBK/GB2312:中文专用编码,主要用于简体中文字符的表示。
字节(Byte)
维度 | 字节(Byte) | 字符(Character) |
---|---|---|
本质 | 存储 / 传输的物理单位 | 文本信息的逻辑单位 |
单位性质 | 固定大小(1 Byte = 8 bit) | 大小不固定(依赖编码) |
作用 | 衡量存储容量、数据量 | 表示文字、符号等信息 |
示例 | 1KB = 1024 Byte | “A”“中”“!” 均为 1 个字符 |
1Byte=8bit
011就是3/8字节
字节有两种用法:一是做单位;另一种是一个文本字符经过编码后得到的序列就叫字节
多个文本字符经过编码后得到的序列叫字节序列
字节序列(Byte Sequence)
1米的黑板
字节序列:文本字符经过编码后得到的序列,称为字节序列,单位是字节
“asfasf” 对应的字节序列 0x61 0x73 0x66 0x61 0x73 0x66 这串由 6 个字节组成的序列