使用scrapy爬取菜谱并建立搜索引擎-优快云博客

本文链接：https://blog.youkuaiyun.com/sagegrass/article/details/126669275

本文介绍了一次爬虫作业，利用scrapy爬取菜谱数据，并将其存入elasticsearch以构建菜谱搜索引擎。重点在于爬取和数据存储，elasticsearch版本为7，同时使用redis进行url去重。运行示例显示搜索不同食材可以得到相应菜谱结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前情提要

自从上次爬取头像以后，爬虫作业栏目已经有近2个月没有更新了，一方面是因为夏天天气炎热，另一方面也是因为没什么高质量的爬虫作业程序。不过好在，9月份刚开始，喜闻乐见的爬虫作业栏目就又更新了

本次的程序是通过爬虫爬取数据并且建立一个搜索引擎，当然我们的程序的重点是放在爬取数据，并且存入elasticsearch的部分，并不会做搜索引擎的用户界面。不过，存入了elasticsearch以后，想要建立一个完整的搜索引擎就已经比较容易了，所以说，感兴趣的话，你可以自己完善搜索引擎界面的部分

关于elasticsearch的安装，可能会成为很多用户的一个问题，不过这并不是本文的重点，如果需要安装，请使用elasticsearch官方下载，根据上面提供的文档，进行下载安装即可

另外，我并没有采用今年的最新的elasticsearch8，而是使用了7的版本，因此，在安装和运行程序的时候，也需要使用7的版本，否则会由于兼容性问题，导致不能够使用

除此之外，为了能够去除掉重复的内容，我还引入了一个redis服务，参与url的去重。这个在往期的文章中已经有过介绍了，因此不再详细提及

spider.py

import scrapy
from ..items import CookbookItem
from base64 import b64decode


class CookSpider(scrapy.Spider):
    name = "cook"

    def start_requ