国内常用字符集主要有:
1、ASCII字符集。《American Standard Code for Information Interchange》,美国信息互换标准编码。单字节编码。
2、GB2312字符集。《信息交换用汉字编码字符集·基本集》,中国国家标准的简体中文字符集——收录的汉字已经覆盖99.75%的使用频率,基本满足了汉字的计算机处理需要,在中国大陆和新加坡获广泛使用。双字节编码。
3、BIG5字符集。1984年由台湾财团法人信息工业策进会和五家软件公司创立,称大五码。双字节编码。
4、GB18030字符集。《信息交换用汉字编码字符集基本集的扩充》。单字节+双字节+4字节编码。兼容GB2312和Unicode 3.0版本。
5、Unicode字符集。《Universal Multiple-Octet Coded Character Set 通用多八位编码字符集》,最新版本是2012年1月31日的Unicode 6.1。根据转化格式不同衍生出UTF-8、UTF-16、UTF-32三种字符集。
UTF-8:1-4字节编码。
UTF-16:2(双)字节编码。
UTF-32:4字节编码。
所谓字符集就是两种语言的翻译对照表。以上常见的字符集都是“二进制代码”和“人类语言”的翻译对照表。其实,从广义上来讲,二进制跟八进制、十进制、十六进制之间也有固定的转化关系,也可以认为存在隐含的、规模无限大的字符集。
根据pickle.dump的返回值引发以下猜想:由于计算机键盘的存在,以键盘按键为基础编写的字符集应该有很强的实际应用意义。(另外,由于键盘码和ASCII有重叠所以容易产生混淆,在搜索相关信息时找到一个关于二者区别的文章。文章链接)