【python爬虫自学记录】【7】-urllib基础,超时设置，自动模拟HTTP请求get请求实战和post请求实战

最新推荐文章于 2024-12-07 17:33:31 发布

原创

最新推荐文章于 2024-12-07 17:33:31 发布 · 377 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #http

本文介绍了Python的urllib基础，包括urlretrieve、urlcleanup、urlinfo、getcode和geturl的使用。还讨论了超时设置在爬虫中的重要性。此外，讲解了如何通过urllib进行HTTP请求，如GET实现百度搜索，POST请求用于模拟登录。在实践中，需要注意中文关键字的转码和防止被反爬。

urllib基础

urlretrieve(网站，本地存储地址)

直接下载网页到本地

import urllib.request

urllib.request.urlretrieve("http://www.baidu.com","D:\\pycharmprojects\\untitled\\dld.html")

urlcleanup()清除缓存

import urllib.request

urllib.request.urlcleanup()

urlinfo()查看网页相应简介信息

file = urllib.request.urlopen("https://www.youkuaiyun.com/")
print(file.info())

getcode（）

返回网页爬取的状态码，可以检测是否是死链，只有200是正常状态

file = urllib.request.urlopen("https://www.youkuaiyun.com/")
print(file.getcode())

geturl()

获取当前访问网页的url
自动爬虫的时候方便查看进行到哪个页面了

file = urllib.request.urlopen("https://www.youkuaiyun.com/")
print(file.geturl

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

在逃扇贝

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Scrapy爬虫框架 Requests and Responses 请求和响应

Mr数据杨

02-01

3万+

在本教程中，我们系统地讲解了如何使用Python的requests库来处理HTTP请求和响应。从基本的请求对象和响应对象操作，到错误处理、请求元数据的使用，以及如何处理特定类型的响应，本教程覆盖了网络编程中的关键概念和实用技巧。希望这份教程能帮助你在自学编程的道路上更进一步。如果遇到任何疑问或需要进一步的指导，建议多实践并参考官方文档或相关资料。网络编程是一个非常实用的技能，掌握它将为你的编程之路打开更多可能性。

[网络安全自学篇] 十四.Python攻防之基础常识、正则表达式、Web编程和套接字通信（一）

热门推荐

杨秀璋的专栏

09-29

2万+

这是作者的系列网络安全自学教程，主要是关于网安工具和实践操作的在线笔记，特分享出来与博友共勉，希望您们喜欢，一起进步。前文分享了Wireshark抓包原理知识，并结合NetworkMiner工具抓取了图像资源和用户名密码，本文将讲解Python网络攻防相关基础知识，包括正则表达式、Web编程和套接字通信。本文参考了爱春秋ADO老师的课程内容，这里也推荐大家观看他Bilibili和ichunqiu的课程，同时也结合了作者之前的经验进行讲解。

参与评论您还未登录，请先登录后发表或查看评论

爬虫基础------urllib基础与超时设置

weixin_42133768的博客

07-21

812

六 web爬虫讲解2—urllib库爬虫—基础使用—超时设置—自动模拟http请求

weixin_30399155的博客

01-03

197

利用python系统自带的urllib库写简单爬虫 urlopen()获取一个URL的html源码read()读出html源码内容decode("utf-8")将字节转化成字符串 #!/usr/bin/env python # -*- coding:utf-8 -*- import urllib.request html = urllib.request.urlopen('http:...

Python每日学习总结（四）

Lu_qw的博客

01-20

545

1.Urllib库实战（1）Urllib基础： Urlretrieve：将网页直接爬到本地 import urllibre.request urllib.request.urlretrieve("网址"，"filename=D:/地址") Urlcleanup：清理Urlretrieve产生的缓存 getcode：查询该网页状态码 geturl：获取当前正在爬的网址是谁（2）超时设置： file=urllib.request.urlopen("网址",timeout=10) （3）自

Python爬虫入门：扩展知识点（超时设置、HTTP协议请求实战：）

weixin_49345590的博客

11-18

349

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于腾讯云作者：py3study ( 想要学习Python？Python学习交流群：1039649593，满足你的需求，资料都已经上传群文件流，可以自行下载！还有海量最新2020python学习资料。 ) 超时设置 有时候访问网页时长时间未响应，系统就会判断网页超时，无法打开网页。如果需要自己设置超时时间则：通过urlopen()打开网页时使用timeout字段设置 imp

request.urlretrieve 设置代理解决超时

子燕若水的博客

05-30

899

在调用之前只需要 # create the object, assign it to a variable proxy = request.ProxyHandler({ 'http': '127.0.0.1:8118', 'https': '127.0.0.1:8118', }) # construct a new opener using your proxy settings

基于Python+requests编写的自动化测试项目-实现流程化的接口串联_python 3 requests项目

2401_84300255的博客

04-19

908

对于同一个系统中需要多个用户参与的过程，这时候就需要配置文件里面再多一位用户的账号密码了，再加一个login()方法并赋值，下面的对应的基础请求封装里面要再多一个参数：is_other_one,默认为false，一但给true，下面headers就要换参数中的值；之后优化思路：将regression_testing里面的方法改成test_*，写一个run方法，加上测试报告，邮件通知（ps：但鄙人不用啊，就十个人，遇到bug，tapd复制上参数，“老哥，出bug了”）是不是也发现了，少了很多东西；

Python爬虫常用的三大库（Request的介绍）

weixin_46606335的博客

05-08

1950

Request、Beautiful Soup、PyQuery的用法 Request的介绍在入门教程中我们介绍了urllib库和urllib2的用法，同时我们了解一些爬虫的基础以及对爬虫有了基本的了解。其实在我们生产环境中，使用Request库更加方便与实用，同时我们这需要短短的几行代码就能解决大量的事情。一、Request的安装在Python简介与环境配置中我们已经安装了PIP管理工具，如果你是2.x版本，也可以使用easy_install来安装Request库，他可以帮助我们很容易的安装三方库： .

python爬虫之urllib,伪装,超时设置,异常处理

Key_book(句芒安全实验室)

05-09

7020

Urllib Urllib.request.urlopen().read().decode() 返回一个二进制的对象，对这个对象进行read()操作，可以得到一个包含网页的二进制字符串，然后用decode()解码成html源码 urlretrieve() 将一个网页爬取到本地 urlclearup() 清除 urlretrieve()所产生的缓存 info() 返回一个ht...

python爬虫urllib模块详解

2401_84009549的博客

04-08

1120

url = ‘https://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule’req = urllib.request.Request(url, data=data, headers=headers)res = urllib.request.urlopen(req)html = res.read().decode(‘utf-8’)dic = json.loads(html)result = dic[“translateResult”]

Postman发送POST请求，模拟请求头&界面的响应信息

最新发布

huace3852的博客

12-07

780

Postman发送POST请求，模拟请求头&界面的响应信息

使用Hypothesis生成测试数据

LAMO

04-24

1234

Hypothesis是Python的一个高级测试库。它允许编写测试用例时，然后生成使测试失败的简单易懂的测试数据。可以用更少的工作在代码中发现更多的bug。

php模拟post请求测试api接口

敏敏张的博客

07-29

1892

模拟post请求

urllib.request.urlretrieve()函数下载文件卡死解决办法

snailzzw的博客

11-07

4377

urllib.request.urlretrieve()函数下载文件卡死解决办法

Python爬虫编程思想（9）：用urllib处理请求超时

一个被知识诅咒的人

07-17

1487

当向服务端发送HTTP请求时，通常很快就会得到响应，但由于某些原因，服务端可能迟迟没有响应（很大程度上是服务端吞吐量不够，你的请求正在排队），这样HTTP链接就会一直等待，知道超过预设的等待时间，这个等待时间就是请求超时。通常请求超时都比较大，这样以来，如果服务端半天没有响应，那么客户端就会一直在那等待。这对于爬虫来说是非常不妥的。因为爬虫通常会启动一个或多个线程抓取Web资源。如果这时有一个线程由于服务端没有响应而一直在那里等待，那么就相当于浪费了一个人力。所以需要将这个请求超时设置的比较...

Python爬虫——解决urlretrieve下载不完整问题且避免用时过长

山阴少年

08-23

1万+

Python爬虫——解决urlretrieve下载不完整问题且避免用时过长

python下载包突然卡住_urlretrieve下载卡死无法超时的问题

weixin_39746652的博客

12-03

2344

在使用Biopython 进行PDB文件下载时, 当文件多了, 经常性会卡死. 这种卡死的问题往往可以通过设置超时timeout值来控制. 当连接时间大于超时时间, 就会发生超时错误, 从而避免卡死的问题.经查源代码, Biopython使用urllib库的urlretrieve方法进行文件的下载. 经查, 该方法并没有timeout参数可以控制超时. 因此不能简单地避免这个问题.想运用reque...

python爬虫网络请求超时_python总urllib,伪装,超时设置,异常处理的方法

weixin_39754267的博客

11-30

615

python爬虫之urllib,伪装,超时设置,异常处理的方法Urllib1. Urllib.request.urlopen().read().decode()返回一个二进制的对象，对这个对象进行read()操作，可以得到一个包含网页的二进制字符串，然后用decode()解码成html源码2. urlretrieve()将一个网页爬取到本地3. urlclearup()清除 urlretrieve...

Python爬虫入门：使用urllib库发送GET和POST请求

文档通过代码示例详细讲解了如何利用urllib模块发起HTTP请求、处理响应数据、设置请求头（headers）、模拟用户代理（User-Agent）以及发送GET和POST请求等关键操作。作为爬虫开发的第一步，理解并熟练运用这些基础...