Python 网页链接中文乱码的解决
问题
在实现python网络爬虫的过程中,有时候你会发现有些链接中的中文字符会变成“乱码”。当然所有的乱码都是缺少一个合适解码编码方式。如果我们需要提取网页链接中的中文字符这么办?
例如下面这条链接:
https://baike.baidu.com/item/%E9%A2%88%E6%A4%8E
解决办法
当然现在有些网站可以在线解码,例如:
https://www.bejson.com/enc/urlencode/

在python中我们可以从urllib.parse库中导入unquote模块。
实现如下:
from urllib.parse import unquote
url = "https://baike.baidu.com/item/%E9%A2%88%E6%A4%8E"
new_url = unquote(url, 'utf-8')
print(new_url)
效果如图:

最后
希望对大家有所帮助!:-)
本文介绍如何使用Python处理网页链接中的中文乱码问题,通过urllib.parse库的unquote模块,可以将乱码的URL转换为正常的中文字符,适用于网络爬虫等场景。

被折叠的 条评论
为什么被折叠?



