一、unicode、encode、decode
字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。
decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312'),表示将gb2312编码的字符串str1转换成unicode编码。encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode('gb2312'),表示将unicode编码的字符串str2转换成gb2312编码。
因此,转码的时候一定要先搞明白,字符串str是什么编码,然后decode成unicode,然后再encode成其他编码。
二、字符串默认编码
代码中字符串的默认编码与代码文件本身的编码一致。
通常,在没有指定特定的编码方式时,都是使用的系统默认编码创建的代码文件。
三、Python2.7的UnicodeEncodeError: ‘ascii’ codec can’t encode异常错误
(1)一种解决方式
http://wangye.org/blog/archives/629/
错误原因是unicode编码与ASCII编码的不兼容,其实这个Python脚本文件是由utf-8编码的,Python默认环境编码通过下面的方法可以获取:
import sys
print sys.getdefaultencoding()
# 'ascii'
Python默认编码基本上是ascii编码方式,由此Python自然调用ascii编码解码程序去处理字符流,当字符流不属于ascii范围内,就会抛出异常(ordinal not in range(128))。
解决的方案很简单,修改默认的编码模式,我们可以通过sys.setdefaultencoding(‘utf-8’)来将当前的字符处理模式修改为utf-8编码模式。
import sys
reload(sys)
那个,需要reload一次是因为python启动时会调用setdefaultencoding一次, 直接import sys不会对已经调用的函数载入, 只有reload一次才能重新载入这个函数。
sys.setdefaultencoding('utf-8')
(2)另一种解决方式
把文件内容,写入到文件中时,出错了。 而出错的原因其实是,python系统,在使用默认的编码类型,此处的ascii,去将对应的内容,写入到文件中。 但是由于其中一些内容,ascii编码不支持,所以报错。
所以,更好的办法是,在输出的时候,对文件制定特定的UTF-8编码即可。 而无需改动默认编码。 具体做法是:
不使用open打开文件,而使用codecs:
fp = codecs.open(‘output.txt’, ‘a+’, ‘utf-8’)
fp.write(row[1])
fp.close()