urllib使用补充（二）

最新推荐文章于 2022-10-07 21:50:05 发布

原创最新推荐文章于 2022-10-07 21:50:05 发布 · 252 阅读

0 ·

CC 4.0 BY-SA版权

python 同时被 2 个专栏收录

15 篇文章

订阅专栏

爬虫

8 篇文章

订阅专栏

本文介绍了Python中Urllib模块的高级用法，包括如何获取爬取网页的环境信息、状态码、URL地址，以及编码解码的方法。通过具体实例展示了如何使用info()、getcode()、geturl()和quote()等函数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

除一提到之外，urllib中还有一些常见的用法

如果希望返回与当前环境有关的信息，我们可以用info（）返回,格式为“爬取的网页.info()”,爬取的网页赋值为file

file.info()

如果希望获取当前爬取网页的状态码，我们可以使用getcode(),格式为“爬取的网页.getcode()”,爬取的网页赋值为file

file.getcode()

如果想要获得当前爬取的url地址，我们可以使用geturl()来实现，格式为“爬取的网页.geturl()”,爬取的网页赋值为file

file.geturl()

如果要进行编码解码，我们可以使用urllib.request.quote(),比如

urllib.request.quote("http://www.baidu.com")#编码
urllib.request.unquote("http://www.baidu.com")#解码

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

吱吱不倦小子

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python常用模块之 urllib&&urllib3 【爬虫库】

孤寒者的博客

09-15

10万+

Python常用模块之 urllib&&urllib3 【爬虫库】

爬虫日记(4)：urllib的基本使用

大坡3D软件开发

03-05

441

前面已经看到urllib库的魔力，了了数行就可以把网页的内容抓取下来，为了以后打下坚实的基础，在本文里对urllib库更进一步了解，学会它的基本使用方法。 urllib 是一个 python 内置包，不需要额外安装即可使用，包里面包含了以下几个用来处理 url 的模块： urllib.request，用来打开和读取 url，意思就是可以用它来模拟发送请求，就像在浏览器里输入网址然后敲击回车一样，获取网页响应内容。 urllib.error，用来处理 urllib.request 引起的异常，保证.

参与评论您还未登录，请先登录后发表或查看评论

python2.X和python3.X中的urllib、urllib2，以及Request

weixin_42269099的博客

12-27

347

1、urllib和urllib2库在python2中的使用 Urllib和Urllib2是python2中提供的一个用于操作url的模块，但是提供了不同的功能。在python2中，有urllib库和urllib2库。在python3中，urllib2被合并到urllib库中，在我们爬取网页的时候，经常用到这个库。 1.1 urllib2可以接受一个Request类的实例来设置URL请求的head...

python3使用urllib.request.quote对参数进行编码

大人的博客

04-15

6174

平时爬虫的时候，个人习惯点击Form Data右侧的view source来复制整个参数，一般情况下是没有问题的直到破解某网站参数加密的时候，js文件在node环境下可以正常运行，但是放在python代码中就无法返回数据了，检查了很久发现是参数的问题，我写的是’param=param’，而将参数改成用{param:param}的方式可以正常返回数据，这时候依然想用我这种方式写该怎么办呢解决...

使用urllib.request.quote进行URL解码

weixin_45208242的博客

11-04

1504

https://python123.io/resources/pye/新时代中国特色社会主义.txthttps://python123.io/resources/pye/%E6%96%B0%E6%97%B6%E4%BB%A3%E4%B8%AD%E5%9B%BD%E7%89%B9%E8%89%B2%E7%A4%BE%E4%BC%9A%E4%B8%BB%E4%B9%89.txt这是一个带有中文的网址，如果你使用urllib直接open，会提示报错，因为urllib无法直接识别中文，必须要进行解码，解码后为卡片下

Python urlib模块学习

好好学习天天向上！

06-18

2873

在能使用的各种网络工作库中，功能最强大的是urllib和urllib2，它们能够让网络访问文件，就像这些文件存在于电脑上一样，通过一个简单的调用，几乎可以把任何URL所指向的东西用作程序的输入。 1、打开远程文件可以像打开本地文件一样打开远程文件，不同之处是可以使用只读模式，使用的是来自于urllib模块的urlopen。 import urllib baidu = urllib.

python3urllib中的quote与encode的区别_请教urllib.request.urlopen的url里中文经过quote转换了还是不...

weixin_39587164的博客

12-10

283

谢谢！我再测试一下其他方面。出错信息如下。Traceback(mostrecentcalllast):File"D:/PycharmProjects/paper/logistic/getCNKI.py",line287,ingetALL()File"D:/PycharmProjects/paper/logistic/getCNKI.py",line195,ingetAL...

第二章基本库的使用之urllib的使用

keven2840的博客

12-27

391

第二章爬虫基础之urllib的使用 urllib可以实现HTTP请求的发送，还可以把服务器返回的响应转换为python对象。 urllib库包含如下4个模块： #request：这是最基本的HTTP请求模块，可以模拟请求的发送。就像在浏览器里输入网址然后按下回车一样，只需要给库方法传入URL以及格外的参数，就可以模拟实现发送请求的过程。 #error：异常处理模块。如果出现请求异常，那么我们可以捕获这些异常，然后进行重试或其他操作以保证程序运行不会意外终止。 #parse：一个工具模块。提供了许多

第二章 Urllib库的使用

weixin_48023487的博客

02-01

1968

文章目录第二章 Urllib库的使用2.1 基本使用2.1.1 urlopen()2.1.2 1个类型与6个方法2.1.3 data参数2.1.4 timeout参数2.1.5 Request2.2 解析链接2.2.1 urlparse()2.2.2 urlunparse()2.2.3 urlsplit()2.2.4 urlunsplit()2.2.5 urljoin()2.2.6 urllib.parse.quote()2.2.7 urllib.parse.urlencode()2.2.8 post请求0

python爬虫入门之urllib库的基本使用(附实战训练爬取内容)

showswoller的博客

10-07

793

python爬虫入门之urllib库的基本使用爬取了笔趣阁中斗罗大陆的全部内容对urllib库中基本内容及模块进行了详细的介绍

urlib模块介绍

柒年

07-04

932

uril模块介绍(原文)爬虫爬虫所需要的功能，基本上在urllib中都能找到，学习这个标准库，可以更加深入的理解后面更加便利的requests库。首先: * 在Pytho2.x中使用import urllib2——-对应的，在Python3.x中会使用import urllib.request，urllib.error * 在Pytho2.x中使用import urllib——-对应的，在Pyth...

urllib的quote处理url中的字符转义

sstartFromZero的专栏

01-23

5555

在url中，有些字符是需要转义的，如空格转义为%20"，引号转义为%22等。在urllib中可以用quote来进行处理。 def getPage(): try: base = "http://www.totallyfreestuff.com/" href = "/95748/0/1/\"We_Have_Choices\"_DVD" url = base + urllib.quot

python爬虫内置库之urllib.request

生命在于休息的博客

05-18

1272

urllib.request模块定义了适用于在各种复杂情况下打开 URL (主要为 HTTP) 的函数和类 --- 例如基本和精简验证，重定向、cookies 及其它。 urllib.request.urlopen（url，data = None，[timeout，]*，cafile = None，capath = None，cadefault = False，context = N...

Python3中urllib使用介绍

热门推荐

困而学之，学思并重

08-19

8万+

Py2.x： Urllib库 Urllin2库 Py3.x： Urllib库变化：在Pytho2.x中使用import urllib2——-对应的，在Python3.x中会使用import urllib.request，urllib.error。在Pytho2.x中使用import urllib——-对应的，在Python3.x中会使用import urllib.request，urllib.

Python3之urllib库的使用总结

rotation博客

08-16

6万+

Urllib库是Python中的一个功能强大、用于操作URL，并在做爬虫的时候经常要用到的库。在Python2.x中，分为Urllib库和Urllin2库，Python3.x之后都合并到Urllib库中，使用方法稍有不同。本文介绍的是Python3中的urllib库。什么是Urllib库Urllib是Python提供的一个用于操作URL的模块，我们爬取网页的时候，经常需要用到这个库。升级合并后，模块

python url编码-----urllib的urlencode和quote和quote_plus

mr~li的博客

11-22

1万+

背景：需要使用有特别要求的第三方接口。 python部分： 1.urllib.urlencode(query, doseq=0) 接受参数形式为：[(key1, value1), (key2, value2),...] 和 {'key1': 'value1', 'key2': 'value2',...} 返回的是形如'key2=value2&key1=value1'字符串。 ...

urllib简单了解

小菜鸟的博客

10-17

2257

#导入库 import urllib.request #爬取网页并赋值给变量 file = urllib.request.urlopen("http://www.baidu.com") #读取网页全部内容 data = file.read() #读取网页中一行内容 dataFile = file.readline() ''' file.read()与readlines不同的时，read会把读取...

Python中的urllib.request模块

学愈进而愈惘

08-25

7万+

因为在玩Python challenge的时候，有用过这个模块，而且学习这个模块之后也对系统学习网络爬虫有用。当时查了各种资料学习，没有碰官网文档（因为还是对英语有抗拒性），但是还是官方的文档最具权威和学习价值，因此想要此次翻译官方文档的同时，锻炼自己的英语能力，也对urllib模块加深理解。因为是为了自己复习起来方便~所以就不一句英语一句中文的对照着翻了，有兴趣看原版的，自己点官方文档吧~翻译不足

scrapy中 HTTP status code is not handled or not allowed异常处理

u013109501的博客

08-20

8558

scrapy中的setting文件中添加 HTTPERROR_ALLOWED_CODES = [403]

如何使用urllib爬取网页内容？