urllib基础
urlretrieve(网站,本地存储地址)
直接下载网页到本地
import urllib.request
urllib.request.urlretrieve("http://www.baidu.com","D:\\pycharmprojects\\untitled\\dld.html")
urlcleanup()清除缓存
import urllib.request
urllib.request.urlcleanup()
urlinfo()查看网页相应简介信息
file = urllib.request.urlopen("https://www.youkuaiyun.com/")
print(file.info())
getcode()
返回网页爬取的状态码,可以检测是否是死链,只有200是正常状态
file = urllib.request.urlopen("https://www.youkuaiyun.com/")
print(file.getcode())
geturl()
获取当前访问网页的url
自动爬虫的时候方便查看进行到哪个页面了
file = urllib.request.urlopen("https://www.youkuaiyun.com/")
print(file.geturl

本文介绍了Python的urllib基础,包括urlretrieve、urlcleanup、urlinfo、getcode和geturl的使用。还讨论了超时设置在爬虫中的重要性。此外,讲解了如何通过urllib进行HTTP请求,如GET实现百度搜索,POST请求用于模拟登录。在实践中,需要注意中文关键字的转码和防止被反爬。
最低0.47元/天 解锁文章
3万+

被折叠的 条评论
为什么被折叠?



