1. python2 从str转为unicode 来显示中文等多字节字符的序列
这个问题看似很简单,得到一个str
s=str('你好')
or s='你好'
在python2下都可以得到一个str类型,然而多字节字符要想正确显示,需要转换为unicode类型
>>> s='你好'+'abc'
>>>s2=unicode(s,'gb18030')
>>> s2
u'\u4f60\u597dabc'
>>> print s2
你好abc
注意:
1.以上论述的范围是python2,在python3里问题有所不同
2.实际上str允许常量包含源字符集(Linux下一般默认utf-8)中任意字符,这意味着
>>> s='你好'+'abc'
>>> print s
你好abc
即只需要打印字符序列的话,那么不需要转换成unicode
3.正如第2点提到的,Linux下(同时也应该是大多数情况下)的默认编码为utf-8
然而在中文版windows下编码却是gb18030
(gbk
是它的一个子集),之前用utf-8
来解码
>>> s.decode('utf-8')
UnicodeDecodeError: 'utf8' codec can't decode byte 0xc4 in position 0: invalid continuation byte
你看,把我困扰的很久。。。怨念