Python 中的编码转换编码方案中文解码 gbk ， utf ，unicode

最新推荐文章于 2022-07-10 14:03:34 发布

原创最新推荐文章于 2022-07-10 14:03:34 发布 · 1.5k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #编码 #unicode #utf-8 #encoding

Python 专栏收录该内容

23 篇文章

订阅专栏

本文介绍如何使用Python处理不同编码的网页内容，重点讲解了利用chardet库检测网页编码及将不同编码转换为UTF-8的过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

近日，正在用python做网页解析，遇到了比较烦人的编码问题，特别时处理中英文结合的网页，编码方案很多的网页时，刚开始很是混乱，就像文章的标题一样。。。

对于字符编码，python推荐在进行数据处理时，使用unicode编码。

多种编码间的使用和转换，其基本思想是：

例如：

我想对各种不同编码的网页解析，并用utf-8编码输出保存。

对于抓取到的网页首先判断是什么编码，这个可以使用一个强大的第三方库chardet 。

import chardet
......
the_page = response.read()
codetype = chardet.detect(the_page)

chardet.detect()

会返回类似这样的字典数据：

{'confidence': 0.99, 'encoding': 'utf-8'}{'confidence': 0.99, 'encoding': 'GB2312'}{'confidence': 1.0, 'encoding': 'ascii'}

通过 codetype['encodiing'] 即可获得相应的编码。

转为unicode编码：

the_page.decode(codetype['encoding'],'ignore')

转为utf-8时，先转为unicode ，再从unicode转为utf-8 :

the_page.decode(codetype['encoding'],'ignore').encode('utf-8','ignore')

博客等级

码龄11年

84
原创

140
点赞

355
收藏

127
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: MVC，MVP 和 MVVM 的图示

下一篇：: Python 开发者应该知道的 7 个开发库(转)

最新评论

R环境中的工作空间（workspace）
※V: 引用「getwd() 显示当前的工作目录setwd("mydirectory") 修改当前的工作目录」 getwd() 显示当前的工作目录 setwd("mydirectory") 修改当前的工作目录为mydirectory ls() 列出当前工作空间中的对象 rm(objectlist) 移除（删除）一个或多个对象 help(options) 显示可用选项的说明 options() 显示或设置当前选项 history(#) 显示最近使用过的#个命令（默认值为25） savehistory("myfile") 保存命令历史到文件myfile中（默认值为.Rhistory） loadhistory("myfile") 载入一个命令历史文件（默认值为.Rhistory） save.image("myfile") 保存工作空间到文件myfile中（默认值为.RData） save(objectlist, file="myfile") 保存指定对象到一个文件中 load("myfile") 读取一个工作空间到当前会话中（默认值为.RData） q() 退出R ———————————————— 版权声明：本文为优快云博主「张某人ER」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.youkuaiyun.com/xinxing__8185/article/details/46908257
R中读取文件，找不到路径问题 No such file or directory
八宝布丁: 同问，求解决方案
R中读取文件，找不到路径问题 No such file or directory
八宝布丁: 请问解决了吗，可以分享一下啊解决方法吗
Windows下 ImportError: cannot import name BeautifulSoup
麦吉克克: 感谢！已解决
Single-Pass聚类算法及其在新事件探测中的应用
不想秃头的夜猫子: 有一篇用single-pass聚类算法做事例的，可以瞄瞄 https://blog.youkuaiyun.com/golden_knife/article/details/124434270?spm=1001.2014.3001.5502

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。