Scrapy学习2-图片的下载-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_62597703/article/details/136700449

一、准备工作

注：此次内容用于自我学习

一、准备工作

1.抓取的网址

壁纸湖网-为壁纸控攒宝藏

2.创建根目录

3.新建项目

scrapy startproject <文件名>

4.新建爬虫

scrapy genspider <爬虫名称> <域名>

cd进入此目录，在此基础上创建爬虫

5.页面解析

如果只有一层解析，则直接将其yield返回item

如果有两层解析，则需要使用url拼接，返回拼接后的网址请求：

url = response.urljoin(href) # 其中href为第二层访问地址的后半部分
yield scrapy.Request(
    url = response.urljoin(href),
    method = 'get',
    callback = self.parse_next # 回调函数，当响应回馈之后，交给自己针对新页面而定义的parse_next方法去进行第二次页面解析
)

之后自己定义parse_next方法，返回需要的item

二、大体流程

1.自定义存储结构

class TupianItem(scrapy.Item):
    # define the fields for your item here like:
    url= scrapy.Field()

2.设置log级别

LOG_LEVEL = "WARNING"