Python小技巧:bytes与str的区别

  • 开发者需要操作原始的8位值序列,序列里面的这些8位值合起来表示一个应该按UTF-8或其他标准编码的字符串。

  • 开发者需要操作通用的Unicode字符串,而不是操作某种特定编码的字符串。

我们通常需要编写两个辅助函数(helper function),以便在这两种情况之间转换,确保输入值类型符合开发者的预期形式。

第一个辅助函数接受bytes或str实例,并返回str:

‘’’

遇到问题没人解答?小编创建了一个Python学习交流QQ群:778463939

寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!

‘’’

def to_str(bytes_or_str):

if isinstance(bytes_or_str, bytes):

value = bytes_or_str.decode(‘utf-8’)

else:

value = bytes_or_str

return value # Instance of str

print(repr(to_str(b’foo’)))

print(repr(to_str(‘bar’)))

‘foo’

‘bar’

第二个辅助函数也接受bytes或str实例,但它返回的是bytes:

def to_bytes(bytes_or_str):

if isinstance(bytes_or_str, str):

value = bytes_or_str.encode(‘utf-8’)

else:

value = bytes_or_str

return value # Instance of bytes

print(repr(to_bytes(b’foo’)))

print(repr(to_bytes(‘bar’)))

在Python中使用原始的8位值与Unicode字符串时,有两个问题要注意。

第一个问题是,bytes与str这两种类型似乎是以相同的方式工作的,但其实例并不相互兼容,所以在传递字符序列的时候必须考虑好其类型。

可以用+操作符将bytes添加到bytes,str也可以这样。

‘’’

遇到问题没人解答?小编创建了一个Python学习交流QQ群:778463939

寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!

‘’’

print(b’one’ + b’two’)

print(‘one’ + ‘two’)

b’onetwo’

onetwo

但是不能将str实例添加到bytes实例:

b’one’ + ‘two’

Traceback …

TypeError: can’t concat str to bytes

也不能将bytes实例添加到str实例:

‘one’ + b’two’

Traceback …

TypeError: can only concatenate str (not “bytes”) to str

bytes与bytes之间可以用二元操作符(binary operator)来比较大小,str与str之间也可以:

assert b’red’ > b’blue’

assert ‘red’ > ‘blue’

但是str实例不能与bytes实例比较:

assert ‘red’ > b’blue’

反过来也一样,也就是说bytes实例不能与str实例比较:

assert b’blue’ < ‘red’

判断bytes与str实例是否相等,总是会评估为假(False),即便这两个实例表示的字符完全相同,它们也不相等。例如,在下面这个例子里,它们表示的字符串都相当于ASCII编码之中的foo。

print(b’foo’ == ‘foo’)

False

两种类型的实例都可以出现在%操作符的右侧,用来替换左侧那个格式字符串(format string)里面的%s。

‘’’

遇到问题没人解答?小编创建了一个Python学习交流QQ群:778463939

寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!

‘’’

print(b’red %s’ % b’blue’)

print(‘red %s’ % ‘blue’)

b’red blue’

red blue

如果格式字符串是bytes类型,那么不能用str实例来替换其中的%s,因为Python不知道这个str应该按照什么方案来编码。

print(b’red %s’ % ‘blue’)

但反过来却可以,也就是说如果格式字符串是str类型,则可以用bytes实例来替换其中的%s,问题是,这可能跟你想要的结果不一样。

print(‘red %s’ % b’blue’)

red b’blue’

这样做,会让系统在bytes实例上面调用__repr__方法,然后用这次调用所得到的结果替换格式字符串里的%s,因此程序会直接输出b’blue’,而不是像你想的那样,输出blue本身。

第二个问题发生在操作文件句柄的时候,这里的句柄指由内置的open函数返回的句柄。这样的句柄默认需要使用Unicode字符串操作,而不能采用原始的bytes。习惯了Python 2的开发者,尤其容易碰到这个问题,进而导致程序出现奇怪的错误。例如,向文件写入二进制数据的时候,下面这种写法其实是错误的。

with open(‘data.bin’, ‘w’) as f:

f.write(b’\xf1\xf2\xf3\xf4\xf5’)

Traceback …

TypeError: write() argument must be str, not bytes

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。

img

img

img

img

img

img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以扫码获取!!!(备注:Python)

nimg.cn/img_convert/6c361282296f86381401c05e862fe4e9.png)

img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以扫码获取!!!(备注:Python)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值