Scrapy抓取单张存入到数据库

一个待崛起的黑马前端

于 2025-03-30 23:57:26 发布

阅读量394

点赞数 4

文章标签： scrapy

本文链接：https://blog.youkuaiyun.com/u013681954/article/details/146781445

版权

在使用Scrapy框架抓取网页数据时，如果你需要将图片的原图片地址以及新下载后的图片地址存入数据库，你可以通过以下几个步骤来实现：

1. 安装和配置Scrapy

首先，确保你已经安装了Scrapy。如果未安装，可以通过pip安装：

pip install scrapy
2. 创建Scrapy项目

创建一个新的Scrapy项目：

scrapy startproject myproject
3. 创建Spider

在myproject/myproject/spiders目录下创建一个新的spider文件，例如image_spider.py：

import scrapy
from scrapy.pipelines.images import ImagesPipeline
from scrapy.utils.project import get_project_settings
from pymongo import MongoClient
import os

class ImageDownloaderPipeline(ImagesPipeline):
def get_media_requests(self, item, info):
yield scrapy.Request(item['image_url'])

def item_completed(self, results, item, info):
image_paths = [x['path'] for ok, x in results if ok]
if not image_paths:
raise DropItem("Image not found