Scrapy学习2-图片的下载

目录

一、准备工作

1.抓取的网址

2.创建根目录

3.新建项目

4.新建爬虫

5.页面解析

二、大体流程

1.自定义数据结构

2.设置log级别

3.图片下载

①导入包,再继承重写

②打开管道

③设置文件夹

④运行

三、各模块代码

1.settings.py

2.fengjing.py

3.items.py

4.pipelines.py

四、运行结果

五、遇到的问题


注:此次内容用于自我学习

一、准备工作

1.抓取的网址

壁纸湖网-为壁纸控攒宝藏

2.创建根目录

3.新建项目

scrapy startproject <文件名>

4.新建爬虫

scrapy genspider <爬虫名称> <域名>

cd进入此目录,在此基础上创建爬虫

5.页面解析

如果只有一层解析,则直接将其yield返回item

如果有两层解析,则需要使用url拼接,返回拼接后的网址请求:

url = response.urljoin(href) # 其中href为第二层访问地址的后半部分
yield scrapy.Request(
    url = response.urljoin(href),
    method = 'get',
    callback = self.parse_next # 回调函数,当响应回馈之后,交给自己针对新页面而定义的parse_next方法去进行第二次页面解析
)

之后自己定义parse_next方法,返回需要的item

二、大体流程

1.自定义存储结构

class TupianItem(scrapy.Item):
    # define the fields for your item here like:
    url= scrapy.Field()

2.设置log级别

LOG_LEVEL = "WARNING"

3.图片下载

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值