Python2.7编码问题

Python编码转换详解

最新推荐文章于 2021-05-24 15:08:18 发布

原创最新推荐文章于 2021-05-24 15:08:18 发布 · 962 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#Python #编码 #unicode #encode #decode

机器学习专栏收录该内容

24 篇文章

订阅专栏

本文详细介绍了Python中字符串编码转换的基本原理，包括unicode、encode及decode的功能，并提供了UnicodeEncodeError异常的两种常见解决方案。

一、unicode、encode、decode

字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。

decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode('gb2312')，表示将gb2312编码的字符串str1转换成unicode编码。encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode('gb2312')，表示将unicode编码的字符串str2转换成gb2312编码。

因此，转码的时候一定要先搞明白，字符串str是什么编码，然后decode成unicode，然后再encode成其他编码。

二、字符串默认编码

代码中字符串的默认编码与代码文件本身的编码一致。

通常，在没有指定特定的编码方式时，都是使用的系统默认编码创建的代码文件。

三、Python2.7的UnicodeEncodeError: ‘ascii’ codec can’t encode异常错误

（1）一种解决方式

http://wangye.org/blog/archives/629/

错误原因是unicode编码与ASCII编码的不兼容，其实这个Python脚本文件是由utf-8编码的，Python默认环境编码通过下面的方法可以获取：

import sys

print sys.getdefaultencoding()

# 'ascii'

Python默认编码基本上是ascii编码方式，由此Python自然调用ascii编码解码程序去处理字符流，当字符流不属于ascii范围内，就会抛出异常（ordinal not in range(128)）。

解决的方案很简单，修改默认的编码模式，我们可以通过sys.setdefaultencoding(‘utf-8’)来将当前的字符处理模式修改为utf-8编码模式。

import sys

reload(sys)

那个,需要reload一次是因为python启动时会调用setdefaultencoding一次, 直接import sys不会对已经调用的函数载入, 只有reload一次才能重新载入这个函数。

sys.setdefaultencoding('utf-8')

（2）另一种解决方式

把文件内容，写入到文件中时，出错了。而出错的原因其实是，python系统，在使用默认的编码类型，此处的ascii，去将对应的内容，写入到文件中。但是由于其中一些内容，ascii编码不支持，所以报错。

所以，更好的办法是，在输出的时候，对文件制定特定的UTF-8编码即可。而无需改动默认编码。具体做法是：

不使用open打开文件，而使用codecs：

fp = codecs.open(‘output.txt’, ‘a+’, ‘utf-8’)

fp.write(row[1])

fp.close()

博客等级

码龄12年

100
原创

74
点赞

379
收藏

111
粉丝

关注

私信

热门文章

分类专栏

计算机系统结构 17篇
人工智能 1篇
机器学习 24篇
神经网络 1篇
自然语言处理 3篇
大数据 15篇
python 9篇
C++ 2篇
Java 3篇
Scala 7篇
Linux 12篇
线性代数 2篇
科学计算 2篇
最优化理论 1篇
开源硬件 9篇
算法 2篇
网络 9篇
TensorFlow 1篇
汇编语言 2篇
安全 1篇
其他 1篇

展开全部收起

上一篇：: sklearn：SVM

下一篇：: sklearn：朴素贝叶斯（naïve beyes）

最新评论

开源硬件介绍
搞硬件的，: 有开源硬件模块的，比如OCM，OTII等硬件设计规范，都是开源硬件的一种，具有一定的通用性，
特征工程（补充）--特征组合
Bullet@: 可以具体谈谈是怎么样让特征加减乘除组合的吗？
sklearn：点互信息和互信息
weixin_41980031: 补充说明点互信息也可以通过Sklearn的build in function 来写代码如下 [code=python] from sklearn import feature_selection as fs # xtrain是features # ytrain是labels # 返回的是一个每个features的PMI值的matrix PMI = fs.mutual_info_classif(xtrain,ytrain) [/code]
sklearn：点互信息和互信息
weixin_41980031: 补充说明点互信息也可以通过Sklearn的build in function 来写代码如下 [code=python] from sklearn import feature_selection as fs # xtrain是features # ytrain是labels # 返回的是一个每个features的PMI值的matrix PMI = fs.mutual_info_classif(xtrain,ytrain) [/code]
sklearn：点互信息和互信息
weixin_41980031: 补充说明点互信息也可以通过Sklearn的build in function 来写代码如下 [code=python] from sklearn import feature_selection as fs # xtrain是features # ytrain是labels # 返回的是一个每个features的PMI值的matrix PMI = fs.mutual_info_classif(xtrain,ytrain) [/code]

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。