【python爬虫自学记录】【7】-urllib基础,超时设置,自动模拟HTTP请求get请求实战和post请求实战

本文介绍了Python的urllib基础,包括urlretrieve、urlcleanup、urlinfo、getcode和geturl的使用。还讨论了超时设置在爬虫中的重要性。此外,讲解了如何通过urllib进行HTTP请求,如GET实现百度搜索,POST请求用于模拟登录。在实践中,需要注意中文关键字的转码和防止被反爬。

urllib基础

urlretrieve(网站,本地存储地址)

直接下载网页到本地

import urllib.request

urllib.request.urlretrieve("http://www.baidu.com","D:\\pycharmprojects\\untitled\\dld.html")
urlcleanup()清除缓存
import urllib.request

urllib.request.urlcleanup()
urlinfo()查看网页相应简介信息
file = urllib.request.urlopen("https://www.youkuaiyun.com/")
print(file.info())
getcode()

返回网页爬取的状态码,可以检测是否是死链,只有200是正常状态

file = urllib.request.urlopen("https://www.youkuaiyun.com/")
print(file.getcode())
geturl()

获取当前访问网页的url
自动爬虫的时候方便查看进行到哪个页面了

file = urllib.request.urlopen("https://www.youkuaiyun.com/")
print(file.geturl
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值