号、图形符号、数字等。比如,一个汉字,一个英文字母,一个标点符号等都是一个字符。
2.2 字符集(Character set)
字符集是字符的集合。字符集的种类较多,每个字符集包含的字符个数也不同。比如,常见的字符集有 ASCII 字符集、GB2312 字符集、Unicode 字符集 等,其中, ASCII 字符集 共有 128 个字符,包 含可显示字符(比如英文大小写字符、阿拉伯数字)和控制字符(比如空格键、回车键); GB2312 字 符集 是中国国家标准的简体中文字符集,包含简化汉字、一般符号、数字等; Unicode 字符集 则包含了世界各国语言中使用到的所有字符。
2.3 字符编码(Character encoding)
字符编码,是指对于字符集中的字符,将其编码为特定的二进制数,以便计算机处理。常见的字符编码 有 ASCII 编码, UTF-8 编码, GBK 编码等。一般而言,字符集和字符编码往往被认为是同义的概 念,比如,对于字符集 ASCII ,它除了有「字符的集合」这层含义外,同时也包含了「编码」的含 义,也就是说,ASCII 既表示了字符集也表示了对应的字符编码。
计算机存储数据的单元,一个8位(bit)二进制数。
3 常见的字符编码简介
常见的字符编码有 ASCII 编码, GBK 编码, Unicode 编码和 UTF-8 编码等等。这里,我们主要 介绍 ASCII 、 Unicode 和 UTF-8。
3.1 ASCII 编码
计算机是在美国诞生的,人家用的是英语,而在英语的世界里,不过就是英文字母,数字和一些普通符 号的组合而已。
在 20 世纪 60 年代,美国制定了一套字符编码方案,规定了英文字母,数字和一些普通符号跟二进 制的转换关系,被称为 ASCII (American Standard C

本文详细介绍了字符集与字符编码的概念,包括ASCII、Unicode和UTF-8的区别。通过探讨UnicodeDecodeError,阐述了Python中字符类型的处理,特别是Python2与Python3的不同,并指出了在编码和解码过程中的潜在问题。

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



