pycharm解决网页乱码问题

最新推荐文章于 2025-04-21 17:43:43 发布

原创最新推荐文章于 2025-04-21 17:43:43 发布 · 2.4k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#python #pycharm #经验分享

本文介绍了一种使用PyCharm进行网页抓取时遇到的中文乱码问题及其解决办法。通过调整文件打开方式中的编码设置，成功解决了抓取网页中文内容时出现的乱码现象。

pycharm在抓取网页后网页中文乱码

抓取网页代码显示乱码

在这里插入图片描述

有问题的代码

from urllib.request import urlopen
url="http://www.baidu.com"
resp=urlopen(url)
with open("baidu.html",mode="w") as f:
    f.write(resp.read().decode("utf-8"))

网页运行结果

问题解决

通过上网查找各种乱码解决方案，最终通过得到结果是decode函数中没有接收数据格式的参数，所以“utf-8”不应该写在decode中，应该在open函数中添加encoding=“utf-8”。

from urllib.request import urlopen
url="http://www.baidu.com"
resp=urlopen(url)
with open("baidu.html",mode="w",encoding="utf-8") as f:
    f.write(resp.read().decode())