Python 中的 bytes 和 str

本文深入解析Python中bytes和str类型的本质区别,探讨它们与Unicode、UTF-8编码的关系,以及在不同场景下如何进行decode和encode转换。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Python里面有bytes 和 str两种类型, 一直没有搞明白他们之间的区别,也不知道为什么还需要进行decode和encode进行转化,今天终于搞明白了。

他们的区别和Unicode,UTF-8有关。

首先要明白的是Unicode是一个字符集,给每一个符号(包括汉字)都规定了二进制代码,但是没有规定应该如何存储。可以理解为字符的唯一的标识。而且Unicode是固定的两个字节表示的,当然现在也有四个字节的版本。比如“黄”字用Unicode表示为“9e c4”,这是两个16进制的字节。

而UTF-8是Unicode的一种编码规则,是变长的。可以把一个Unicode字符编码为1到4个字节。下面是Unicode和UTF-8的转换关系。左边是16进制的Unicode,右边是2进制的UTF-8。

U+ 0000 ~ U+ 007F: 0XXXXXXX
U+ 0080 ~ U+ 07FF: 110XXXXX 10XXXXXX
U+ 0800 ~ U+ FFFF: 1110XXXX 10XXXXXX 10XXXXXX
U+10000 ~ U+1FFFF: 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX

了解了两者的区别后,就容易明白bytes和str的关系。首先Python3里面的字符都是用Unicode表示的,比如我们可以查看“学”字的Unicode值如下:

In [1]: a = '学'

In [2]: ord(a)
Out[2]: 23398

In [4]: hex(ord(a))
Out[4]: '0x5b66'

也就是“学”字Python3里面用十进制表示为23398,如果转换为16进制是0x5b66。但是如果要变成bytes类型,首先需要指定转换类型,当然默认是的UTF-8,但是我们也可以选择为其他编码类型。比如:

In [7]: bytes(a, 'utf-8')
Out[7]: b'\xe5\xad\xa6'

In [8]: bytes(a, 'gb2312')
Out[8]: b'\xd1\xa7'

对a变量分别进行utf-8和gb2312编码后,得到的bytes的内容是完全不一样的,也和之前的Unicode内容不一样。所以我们把str变成bytes时是用适当的编码格式进行转换,相反,如果把bytes类型的数据转换为str,需要使用对应的编码格式转换为Unicode格式的字符。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值