上篇通过python爬取了一篇网络小说,初步了解了爬虫的四步流程,本文稍微扩展一点,试着从网页中爬取出多个图片,具体来看看:
我们今天试着从下面图1的网页上将所有图片都爬取出来,放在一个指定的文件夹里。
图1 目标网页
还是按爬虫4流程:发出请求——获得网页——解析内容——保存内容
1、发出请求
1)找到网页地址:
在网页上右键单击“审查元素”,弹窗里选中Network面板,从左侧name列表里逐个选择项目,观察右侧Preview面板下的内容,发现出现下图2中的样式时,就是我们要的第一小步目标。
在图3所示的Headers面板下找到网页地址URL
图3
Request URL:
https://m.gmw.cn/toutiao/2020-02/16/content_123107586.htm?tt_group_id=6793905493262729736
2)找到网页中图片地址:
由于网页上的图片都是有单独网址的,与网页的网址不同,所以我们需要在网页代码里找到图片的网址信息。继续查找Preview面板下的网页代码,图4红框内所示即为网页里插图图片的地址,这就是我们爬取图片真正要用的地址
图4, 红方框内为图片地址
所以,