【爬虫作业】使用scrapy爬取菜谱,存入elasticsearch中建立菜谱搜索引擎

本文介绍了一次爬虫作业,利用scrapy爬取菜谱数据,并将其存入elasticsearch以构建菜谱搜索引擎。重点在于爬取和数据存储,elasticsearch版本为7,同时使用redis进行url去重。运行示例显示搜索不同食材可以得到相应菜谱结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前情提要

自从上次爬取头像以后,爬虫作业栏目已经有近2个月没有更新了,一方面是因为夏天天气炎热,另一方面也是因为没什么高质量的爬虫作业程序。不过好在,9月份刚开始,喜闻乐见的爬虫作业栏目就又更新了

本次的程序是通过爬虫爬取数据并且建立一个搜索引擎,当然我们的程序的重点是放在爬取数据,并且存入elasticsearch的部分,并不会做搜索引擎的用户界面。不过,存入了elasticsearch以后,想要建立一个完整的搜索引擎就已经比较容易了,所以说,感兴趣的话,你可以自己完善搜索引擎界面的部分

实现分析

关于elasticsearch的安装,可能会成为很多用户的一个问题,不过这并不是本文的重点,如果需要安装,请使用elasticsearch官方下载,根据上面提供的文档,进行下载安装即可

另外,我并没有采用今年的最新的elasticsearch8,而是使用了7的版本,因此,在安装和运行程序的时候,也需要使用7的版本,否则会由于兼容性问题,导致不能够使用

除此之外,为了能够去除掉重复的内容,我还引入了一个redis服务,参与url的去重。这个在往期的文章中已经有过介绍了,因此不再详细提及

完整代码

spider.py

import scrapy
from ..items import CookbookItem
from base64 import b64decode


class CookSpider(scrapy.Spider):
    name = "cook"

    def start_requ
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值