一、编码处理
先了解几个概念:位(bit)、字节(byte)、字符、字符集、编码、解码
编码:密码本,二进制与文字的对应关系
- ASCII码:只包含:英文字母,数字,特殊字符
- GBK: 英文字母,数字,特殊字符和中文(国标,windows默认编码,英文字母1个字节表示,中文2个字节)
- Unicode: 万国码:把世界上所有的文字都记录到这个密码本(一个字符用2个字节表示,浪费空间、资源)
- UTF-8:升级版,最少用8bit1个字节表示一个字符(英文1个字节,欧洲2个字节,中文3个字节)
数据在内存中全部是以Unicode编码的,但是当你的数据用于网络传输或者存储到硬盘,必须以非Unicode(utf8,gbk)
了解python标准库ord、chr。
encode(编码)、decode(解码)使用:
# bytes 内存中编码方式非unicode 用于网络传输,数据存储
b = b"hello"
print(b,