Python里面有bytes 和 str两种类型, 一直没有搞明白他们之间的区别,也不知道为什么还需要进行decode和encode进行转化,今天终于搞明白了。
他们的区别和Unicode,UTF-8有关。
首先要明白的是Unicode是一个字符集,给每一个符号(包括汉字)都规定了二进制代码,但是没有规定应该如何存储。可以理解为字符的唯一的标识。而且Unicode是固定的两个字节表示的,当然现在也有四个字节的版本。比如“黄”字用Unicode表示为“9e c4”,这是两个16进制的字节。
而UTF-8是Unicode的一种编码规则,是变长的。可以把一个Unicode字符编码为1到4个字节。下面是Unicode和UTF-8的转换关系。左边是16进制的Unicode,右边是2进制的UTF-8。
U+ 0000 ~ U+ 007F: 0XXXXXXX
U+ 0080 ~ U+ 07FF: 110XXXXX 10XXXXXX
U+ 0800 ~ U+ FFFF: 1110XXXX 10XXXXXX 10XXXXXX
U+10000 ~ U+1FFFF: 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX
了解了两者的区别后,就容易明白bytes和str的关系。首先Python3里面的字符都是用Unicode表示的,比如我们可以查看“学”字的Unicode值如下:
In [1]: a = '学'
In [2]: ord(a)
Out[2]: 23398
In [4]: hex(ord(a))
Out[4]: '0x5b66'
也就是“学”字Python3里面用十进制表示为23398,如果转换为16进制是0x5b66。但是如果要变成bytes类型,首先需要指定转换类型,当然默认是的UTF-8,但是我们也可以选择为其他编码类型。比如:
In [7]: bytes(a, 'utf-8')
Out[7]: b'\xe5\xad\xa6'
In [8]: bytes(a, 'gb2312')
Out[8]: b'\xd1\xa7'
对a变量分别进行utf-8和gb2312编码后,得到的bytes的内容是完全不一样的,也和之前的Unicode内容不一样。所以我们把str变成bytes时是用适当的编码格式进行转换,相反,如果把bytes类型的数据转换为str,需要使用对应的编码格式转换为Unicode格式的字符。