Python2.7编码问题

本文详细介绍了Python中字符串编码转换的基本原理,包括unicode、encode及decode的功能,并提供了UnicodeEncodeError异常的两种常见解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、unicode、encode、decode
字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。
decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312'),表示将gb2312编码的字符串str1转换成unicode编码。encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode('gb2312'),表示将unicode编码的字符串str2转换成gb2312编码。   
因此,转码的时候一定要先搞明白,字符串str是什么编码,然后decode成unicode,然后再encode成其他编码。
二、字符串默认编码
代码中字符串的默认编码与代码文件本身的编码一致。
通常,在没有指定特定的编码方式时,都是使用的系统默认编码创建的代码文件。
三、Python2.7的UnicodeEncodeError: ‘ascii’ codec can’t encode异常错误
(1)一种解决方式
http://wangye.org/blog/archives/629/
错误原因是unicode编码与ASCII编码的不兼容,其实这个Python脚本文件是由utf-8编码的,Python默认环境编码通过下面的方法可以获取:  
import sys 
print sys.getdefaultencoding() 
# 'ascii' 
Python默认编码基本上是ascii编码方式,由此Python自然调用ascii编码解码程序去处理字符流,当字符流不属于ascii范围内,就会抛出异常(ordinal not in range(128))。
解决的方案很简单,修改默认的编码模式,我们可以通过sys.setdefaultencoding(‘utf-8’)来将当前的字符处理模式修改为utf-8编码模式
import sys 
reload(sys) 
那个,需要reload一次是因为python启动时会调用setdefaultencoding一次, 直接import sys不会对已经调用的函数载入, 只有reload一次才能重新载入这个函数。
sys.setdefaultencoding('utf-8')
(2)另一种解决方式
把文件内容,写入到文件中时,出错了。 而出错的原因其实是,python系统,在使用默认的编码类型,此处的ascii,去将对应的内容,写入到文件中。 但是由于其中一些内容,ascii编码不支持,所以报错。 
所以,更好的办法是,在输出的时候,对文件制定特定的UTF-8编码即可。 而无需改动默认编码。 具体做法是: 
不使用open打开文件,而使用codecs: 
fp = codecs.open(‘output.txt’, ‘a+’, ‘utf-8’)
fp.write(row[1])
fp.close()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值