前言
这次我尝试了从壁纸网站上面,爬取图片下来
获取网页
这次我使用的是urllib库
设置网址
设置请求头
获取网页源代码,这里没有解码成中文字符,是因为要爬取的图片我们要以二进制形式保存
import urllib.request
url='http://www.netbian.com/'
headers={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0"
}
request=urllib.request.Request(url,headers=headers)
r= (urllib.request.urlopen(request)).read()
解析网页
先来分析一下网页源代码
要爬取的目标图片链接位于li结点下的img结点的src属性中的值
这里我采用xpath的方法进行解析
这里我对爬回来的数据进行了处理,因为我发现列表第一个、