python的字符序列处理

本文详细解释了在Python2环境下将str转换为unicode以正确显示中文等多字节字符的方法,包括实例演示和注意事项。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. python2 从str转为unicode 来显示中文等多字节字符的序列

这个问题看似很简单,得到一个str
s=str('你好') or s='你好' 在python2下都可以得到一个str类型,然而多字节字符要想正确显示,需要转换为unicode类型

>>> s='你好'+'abc'
>>>s2=unicode(s,'gb18030')
>>> s2
u'\u4f60\u597dabc'
>>> print s2
你好abc
注意
1.以上论述的范围是python2,在python3里问题有所不同
2.实际上str允许常量包含源字符集(Linux下一般默认utf-8)中任意字符,这意味着
>>> s='你好'+'abc'
>>> print s
你好abc
即只需要打印字符序列的话,那么不需要转换成unicode
3.正如第2点提到的,Linux下(同时也应该是大多数情况下)的默认编码为utf-8
然而在中文版windows下编码却是gb18030(gbk 是它的一个子集),之前用utf-8来解码
>>> s.decode('utf-8')
UnicodeDecodeError: 'utf8' codec can't decode byte 0xc4 in position 0: invalid continuation byte
你看,把我困扰的很久。。。怨念

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值