Python选择性爬取网页图片并保存本地
刚学python不久,所以先记录一个爬取图片的方式,并保存本地指定路径下。当然不一定会是最简单的方式,但肯定是使用起来感觉最简单的。 做的不好,仅供参考。
首先需要安装几个模块:
打开电脑的命令提示符窗口(菜单键+R,输入cmd后回车即可)
其它模块都是内建模块,可以直接使用。
具体代码如下:(这里选用天堂图片网为基址爬取图片)
import requests
from lxml import etree
import os
from urllib.request import urlretrieve
#判断是否存在“所有图片”这个文件夹
if not os.path.exists("所有图片"):
#如果不存在这个文件夹,则创建它。
#创建“所有图片”文件夹
os.mkdir("所有图片")
#切换至“所有图片”文件夹下
os.chdir("所有图片")
for page in range(1,2):#1为开始页,2为结束页
print("正在下载第{}页图片".format(page))
#使用for循环拼接出来前10页的网址
url = "http://www.ivsky.com/tupian/index_{}.html".format(page)
#对网页发起请求,拿到网页的源代码
response = requests.get(url)
#对网页源代码进行解析
html_obj = etree.HTML(response.text)
#获取a标签的一个列表
a_list = html_obj.xpath('//ul[@class="ali"]/li/p/a')
#遍历a标签
for a in