scrapy+elasticsearch实现搜索引擎

最新推荐文章于 2023-12-30 13:57:59 发布

迷人的派大星

最新推荐文章于 2023-12-30 13:57:59 发布

阅读量1.2k

点赞数 12

分类专栏： python Flask 爬虫文章标签： python css javascript jquery

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/airenKKK/article/details/115528588

版权

python 同时被 3 个专栏收录

44 篇文章

订阅专栏

3 篇文章

订阅专栏

2 篇文章

订阅专栏

前言

很久之前就想实现一个小的搜索引擎供自己使用，一来代码量不大，二来也可以屏蔽一些广告。因此在春节期间，在同学提供前端的帮助下，一个小的搜索引擎系统就成型啦。做出来之后总体效果也符合我之前的预期，但引擎的核心部分取了巧，并不是自己去实现的权重排序，而是通过爬虫去抓取其他搜索引擎的结果，算是小小的遗憾，以后有机会自己在补上。

效果预览

先放几张效果图（需要代码的同学可以评论留下邮箱）：

主页
搜索页1
搜索页2

总体功能

共分为两个部分，主页和结果页
搜索框实现了搜索建议补全
关键词未命中es时，会启动scrapy爬虫去抓取必应的搜索结果，同时存入es（elasticsearch，下文统一用es来简写）。所以第一次的相应时间会相对长一些
关键词命中es时，直接从es获取结果，毫秒级响应，同时将命中的部分高亮处理。
前后端同时分页，跳页时前端只会向后台请求对应页的搜索结果，减少web传输内容。
跳页时局部渲染html，减少响应时间。
实时获取百度热搜榜

环境与版本号

该项目用到了 flask+es+scrapy+python+linux

虚拟机：vmware14.0，主要用来跑es
linux：7.2，内核版本为 3.10.0-327.el7.x86_64，查看内核版本命令：cat /proc/version
python：3.7.4，用于主程序的开发
flask：1.1.1，用于整体web框架的构建
es：7.10.2，存储数据
scrapy：2.4.1，爬虫程序构建，用于抓取搜索结果存入es
jquery：2.1.0，用于前端主体
layui：2.6.4，使用了分页组件

本机环境为win10专业版，IDE为pycharm，为了项目兼容运行，复现的同学最好搭建版本号相同或者相近的环境。

迷人的派大星

博客等级

码龄8年

99
原创

504
点赞

1326
收藏

1万+
粉丝

关注

私信

热门文章

分类专栏

linux 12篇
安全 5篇
paper 9篇
python 44篇
流量分类 13篇
机器学习 16篇
C/C++ 6篇
octave 3篇
408知识总结 8篇
Flask 2篇
mysql 1篇
监控 2篇
django 1篇
爬虫 3篇
pandas 3篇
算法 28篇

最新评论

pyshark使用教程
liguohaofirst: 可能是python版本的原因，我的3.7出错，3.11就没问题了
Caldera安装及简单使用
m0_70261419: 博主你好，我总是在python3 server.py --insecure这一步出错是为什么呢
vmware中ubuntu有线网络网速只有10Mb/s解决办法
Wayne的csdn: 感谢，好用。给后来者的详细说明。改版本指的是博客内容里改为ubuntu64位，删除网卡按照评论区的虚拟机设置，删除网络适配器，再加一个新的即可。
Ping每隔几次出现一次延迟特别大的情况（已解决）
dubian223: 大学生回到家玩游戏间歇性卡顿，连的是家里WiFi，平时在学校也是连WiFi，说明是家里WiFi信号太弱，网卡自动打开了连接附近网址的功能，楼主关掉的就是这个吧？https://oyeah.blog.youkuaiyun.com/article/details/120484552?spm=1001.2101.3001.6650.4&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ECtr-4-120484552-blog-123147456.235%5Ev43%5Epc_blog_bottom_relevance_base5&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ECtr-4-120484552-blog-123147456.235%5Ev43%5Epc_blog_bottom_relevance_base5
Ping每隔几次出现一次延迟特别大的情况（已解决）
qq_42918542: 那么如果是有线网络外网间歇性高延迟呢？大多数包在30ms 大概每隔30个包跳1个100ms的包

最新文章

目录

评论 52

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。