怎么用C++写全文搜索引擎

最新推荐文章于 2025-08-05 10:20:38 发布

wuyijian_ml

最新推荐文章于 2025-08-05 10:20:38 发布

阅读量4.6k

点赞数 4

CC 4.0 BY-SA版权

分类专栏：搜索引擎机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wyq_wyj/article/details/81910349

本文介绍了一个使用C++编写的全文搜索引擎项目，旨在解决网站内部搜索引擎的效率和定制化问题。项目利用redis存储倒排索引和网页库，支持中文分词，并采用BM25算法进行网页排序。通过内存缓存和持久化存储提高查询速度，同时采用log4cpp记录日志。未来计划加入推荐算法，优化网络库和调整redis缓存参数。

用C++写的全文搜索引擎

项目背景

现在我们可以在我们可以很容易的在网上搜索到海量的信息，有些网站往往拥有很多优秀的内容，但是缺乏一个灵活而且高效的搜索引擎，导致这个网站的价值没有很好的体现，基于时间轴的或者tag的推荐从另一种角度上来说其实是忽视了用户搜索的主观能动性。

通用的搜索引擎并不能解决这个问题：首先，不能有针对性的垂直搜索，对内容的抓取和索引简单粗暴，无法得到结构化数据，看不到隐藏的内容属性；其次，通用搜索引擎对内容的排序无法进行定制，实时性不够，无法成为网站社区的有机的一部分。

我们如果能够解决这两个问题，那么相信网站内容的价值也会更好的得到体现，同时用户也会越来越适应通过站内搜索引擎更好的获取自己需要资源。

这个项目就是为了实现这样理想的一个尝试。

功能综述

利用redis存储倒排索引和网页库(均在内存)，实现高速搜索
利用redis建立缓存，若在缓存直接命中，查询相应速度提高接近100倍
支持中文分词（cppjieba）
支持持久化存储(redis)
采用log4cpp作为日志系统

项目架构

离线索引模块

数据结构：{string : {ID : weight},{ID : weight}...},weight（权重）是通过TD-IDF算法并归一后的权重
存储结构：用redis 的set存储：结构为 key:string set :string(string 需要解析是ID 和 weight组成的字符串)

查询模块

网页排序：BM25算法 + vsm 之前采用空间向量模型和BM25算法结合（两个算法本来就有共通的地方）增加一些定制性
线程模型：task threadpool 任务队列

缓存模块

内存实现：利用unordered_map 作为缓存数据结构，每个线程维护一个缓存，线程池维护一个缓

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。