爬虫第十课---scrapy媒体管道和部署

最新推荐文章于 2024-05-31 21:24:28 发布

韩淼燃

最新推荐文章于 2024-05-31 21:24:28 发布

阅读量336

点赞数

CC 4.0 BY-SA版权

分类专栏： python怕虫项目课程文章标签： images python scrapy

本文链接：https://blog.youkuaiyun.com/weixin_36691991/article/details/90680056

python怕虫项目课程专栏收录该内容

18 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

本文通过实例讲解了如何使用Scrapy爬虫框架抓取豆瓣网站的图片。介绍了爬虫文件的编写，配置文件的设置，并在运行爬虫后实现了图片的自动下载。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

'''
补存：spiderMiddleware   中间件  处理返回的数据使用，和之前第五课学习的差不多

媒体管道：
pipline:对引擎返回的item数据进行处理

process_item

scrapy 提供的 图片{image_urls}  文件
在使用scrapy提供的pipelimne的时候，激活ImagePipe里(scrapy.pipelines.images.ImagesPipeline)，一定要设置路劲（IMAGES_STORE）

总结：
ImagePipeline
第一种：不重写ImagePipeline的方法，直接在settings里面激活，并配置文件下载地址
第二种：重写ImagePipeline里面的方法，也要在settings中激活，继承ImagePipeline类，然后重写他的方法



#项目步骤
1创建项目
2正常匹配出一个字典，item['image_urls'],然后激活自动下载图片，（
在settings中取消注释ITEM_PIPELINES,在这个激活的字典中，
添加scrapy.piplines.images.ImagesPipline:301,并且注释掉原有的字典元素），然后再配置文件中写好下载图片保存的路劲

#scrapyd 部署工具

客户端：pip install scrapyd-client
服务端：pip install scrapyd

使用;
在服务器端启动scrapyd，
然后在本机浏览器访问ip：端口（127.0.0.1：6800）

api   发送http请求，用来进行控制
上传：scrapyd-deploy -p 项目名称
启动：curl http://localhost:6800/schedule.json -d projec