python 中 unicode原样转成str, unicode-escape与string_escape

本文介绍了一种处理从网页抓取的特殊Unicode编码的方法,通过使用Python的encode和decode函数将带有'u'前缀的Unicode字符串转换回原始UTF-8编码的文本。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

通过BS4抓取的数据竟然抓到了这样的字符串

text = u'\xe9\x95\xbf\xe5\x9f\x8e'


奇怪吧,这是一个utf8编码的汉字,但是前面却出现了u,成了unicode码,导致无法正确解码

首先是要把这个unicode原样转成str,也就是需要得到

text = '\xe9\x95\xbf\xe5\x9f\x8e'

这里使用


text = text.encode('unicode-escape')

现在text的值为

text = '\\xe9\\x95\\xbf\\xe5\\x9f\\x8e'

咦,转过来了,但是,反斜杠也被原样转了。

接下来使用


text = text.decode('string_escape')

现在text的值为

text = '\xe9\x95\xbf\xe5\x9f\x8e'

耶,需求实现


完整代码


text = u'\xe9\x95\xbf\xe5\x9f\x8e'
text = text.encode('unicode-escape').decode('string_escape')

print text.decode('utf8')

长城


评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值