用python3.x爬虫时链接中出现中文使得出现UnicodeEncodeError的解决

最新推荐文章于 2024-01-25 11:56:25 发布

原创最新推荐文章于 2024-01-25 11:56:25 发布 · 972 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#UnicodeEncodeError #python3.x #爬虫链接 #中文

网络数据采集专栏收录该内容

1 篇文章

订阅专栏

本文介绍了解决Python3.6版本中处理含有中文字符URL的问题。通过使用urllib.parse.quote方法转换非ASCII码字符，成功实现了网页的正确打开。

小白博主之前学习一直用python2.7，由于世风日下，最近换成了3.6版本，但是刚入手3.6就发现有好多问题。
比如链接中出现中文字符就会有如下错误：

UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 33-34: ordinal not in range(128)

于是便从google、百度等各大浏览器寻找解决方案，大部分都是针对于2.7版本，比如reload(sys)，但是实际上3.x版本中的默认编码方式都是utf-8，因此，终于功夫不负有心人，经过无数次失败后，找到如下解决方案：

import urllib
from urllib.request import urlopen
print (urllib.parse.quote("此处填写非ASCII码字符"))
#将结果复制，粘贴到原链接处，进行urlopen即可
html=urlopen("http://zh.wikipedia.org/wiki/%E6%9C%B4%E6%A0%91_(%E6%AD%8C%E6%89%8B)")

终于迈出第一步！