字符编码、语言环境与表格数据处理
1. 字符集与编码方案
字符集是处理文本数据的基础。Unicode 提供了一套全面的字符编码体系,涵盖了世界上众多语言的字符。
1.1 字符分类
Unicode 对字符进行了细致的分类,主要类别及其子类如下表所示:
| 主要类别 | 简称 | 全称 | 子类简称 | 子类全称 |
| ---- | ---- | ---- | ---- | ---- |
| L | Letter | 字母 | Lu | Uppercase_Letter(大写字母) |
| | | | Ll | Lowercase_Letter(小写字母) |
| | | | Lt | Titlecase_Letter(首字母大写字母) |
| | | | Lm | Modifier_Letter(修饰字母) |
| | | | Lo | Other_Letter(其他字母) |
| M | Mark | 标记 | Mn | Nonspacing_Mark(非间距标记) |
| | | | Mc | Spacing_Mark(间距标记) |
| | | | Me | Enclosing_Mark(封闭标记) |
| N | Number | 数字 | Nd | Decimal_Number(十进制数字) |
| | | | Nl | Letter_Number(字母数字) |
| | | | No | Other_Number(其他数字) |
| P | Punctuation | 标点符号 | Pc | Connector_Punctua
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



