搜索引擎项目
文章平均质量分 78
啊吧怪不啊吧
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
C++之基于正倒排索引的Boost搜索引擎项目日志+server代码及详解
本文介绍了项目开发中的日志系统和搜索功能实现。日志系统使用__FILE__和__LINE__宏自动记录文件名和行号,并定义log1函数格式化输出日志信息。搜索功能部分通过Searcher类实现,从指定路径读取数据源,使用fgets接收用户查询(处理换行符),调用Search函数获取JSON格式的搜索结果并输出。文中还解释了代码中关键语句的作用,如去除换行符和文件路径设置等。原创 2025-10-12 09:17:32 · 2117 阅读 · 86 评论 -
C++之基于正倒排索引的Boost搜索引擎项目searcher部分代码及详解
该代码通过Searcher类实现轻量级搜索引擎后端核心功能:以单例模式构建倒排 / 正向索引,处理用户查询时先分词、转小写查索引,用InvertedElemPrint配合哈希表去重并累加权重,结果按权重排序后取文档信息、生成摘要,最终序列化为 JSON 返回,实现 “关键词→搜索结果” 的完整链路。原创 2025-10-06 14:44:58 · 3101 阅读 · 88 评论 -
C++之基于正倒排索引的Boost搜索引擎项目usuallytool部分代码及详解
本文为 Boss 搜索引擎开发ns_util工具库,封装三大核心支撑功能:FileUtil负责二进制文件读取,保障索引构建的词典加载;StringUtil基于 Boost 实现字符串切分,处理搜索文本逻辑;JiebaUsutl复用 cppjieba 分词实例,高效完成关键词分词。整体以静态设计简化调用,夯实搜索业务的基础操作环节。原创 2025-09-29 16:29:47 · 1975 阅读 · 82 评论 -
C++之基于正倒排索引的Boost搜索引擎项目正倒排索引部分代码及详解
本文介绍搜索引擎正倒排索引模块:离线构建,正排用DocInfo1+vector 存文档信息,倒排以倒排拉链关联关键词与文档,单例设计保唯一,含构建与查询功能,支撑高效搜索原创 2025-09-23 11:15:41 · 2200 阅读 · 81 评论 -
C++之基于正倒排索引的Boost搜索引擎项目数据清洗代码及详解(下)
本文主要介绍了一套从 Boost 库相关 HTML 文件中提取信息并进行存储的流程,涵盖文件筛选、信息提取以及结果保存等关键步骤,实现了从本地 HTML 文件到结构化信息存储的完整处理过程。原创 2025-09-17 14:55:00 · 1246 阅读 · 68 评论 -
C++之基于正倒排索引的Boost搜索引擎项目数据清洗代码及详解(上)
网页数据清洗为剔除多余标签、提取 title 与 content 等关键信息。清洗分三步:从 src_path 筛选.html 文件存 file_list;去标签并提取信息(含构建 url)存 results;将 results 写入 output(/3 分隔)。文中附含 DocInfo_t 结构体的 C++ 代码框架。原创 2025-09-12 15:40:48 · 1179 阅读 · 66 评论 -
C++之基于正倒排索引的Boost搜索引擎项目介绍
本文分两部分核心内容:其一,项目开发是计算机领域理论落地的关键,能将编程、数据结构等知识转化为实战能力,在解决问题中培养思维,还可让人熟悉工业界开发流程,同时是求职深造的重要能力证明;其二,搜索引擎依据关键词筛选信息,核心依赖正倒排索引,倒排索引按关键词快速找文档ID,正排索引凭ID取文档内容,二者协作完成检索,且爬虫与索引构建后台持续运行。原创 2025-09-02 15:25:04 · 2203 阅读 · 61 评论
分享