前情提要
自从上次爬取头像以后,爬虫作业栏目已经有近2个月没有更新了,一方面是因为夏天天气炎热,另一方面也是因为没什么高质量的爬虫作业程序。不过好在,9月份刚开始,喜闻乐见的爬虫作业栏目就又更新了
本次的程序是通过爬虫爬取数据并且建立一个搜索引擎,当然我们的程序的重点是放在爬取数据,并且存入elasticsearch的部分,并不会做搜索引擎的用户界面。不过,存入了elasticsearch以后,想要建立一个完整的搜索引擎就已经比较容易了,所以说,感兴趣的话,你可以自己完善搜索引擎界面的部分
实现分析
关于elasticsearch的安装,可能会成为很多用户的一个问题,不过这并不是本文的重点,如果需要安装,请使用elasticsearch官方下载,根据上面提供的文档,进行下载安装即可
另外,我并没有采用今年的最新的elasticsearch8,而是使用了7的版本,因此,在安装和运行程序的时候,也需要使用7的版本,否则会由于兼容性问题,导致不能够使用
除此之外,为了能够去除掉重复的内容,我还引入了一个redis服务,参与url的去重。这个在往期的文章中已经有过介绍了,因此不再详细提及
完整代码
spider.py
import scrapy
from ..items import CookbookItem
from base64 import b64decode
class CookSpider(scrapy.Spider):
name = "cook"
def start_requ