
【全文检索】分词
文章平均质量分 89
Microi风闲
三天不学习
展开
-
基于 .NET 8 + Lucene.Net + 结巴分词实现全文检索与匹配度打分实战指南
本文详细讲解如何利用.NET 8Lucene.Net和结巴分词(Jieba)实现高效的全文检索功能,并支持搜索结果按匹配度排序。内容涵盖环境搭建、索引管理、分词优化、动态更新策略及实战代码示例,助您快速构建高性能中文搜索引擎。.NET 8:微软最新跨平台框架,提供高性能运行时。Apache顶级搜索库的.NET移植版,支持复杂搜索逻辑。结巴分词(Jieba):高效中文分词组件,支持搜索和索引双模式。// 修改词频计算逻辑// 应用自定义评分停用词文件:移除“的”、“了”等无意义词。用户词典。原创 2025-04-04 20:41:35 · 549 阅读 · 12 评论 -
JiebaAnalyzer 分词模式详解【搜索引擎系列教程】
是分词模式的关键参数,用于控制分词粒度。用户词典 > Jieba 默认词典:适用于搜索阶段,细粒度分词提升召回率:适用于索引阶段,粗粒度分词保证准确性通过和可优化分词质量。原创 2025-04-03 18:09:19 · 548 阅读 · 5 评论 -
Lucene.Net FSDirectory 和 RAMDirectory 的区别和用法 【搜索引擎系列教程】
Lucene.Net中的和是两种不同的索引存储方式,它们在性能、用途和持久性上有显著差异。原创 2025-04-03 17:59:08 · 691 阅读 · 0 评论 -
提高网站访问速度非常有用的方法
一、 网站程序中采用DIV+CSS这种模式,不用Table目前DIV+CSS是主流的编程语言,这与其体积小加载快的优点是密不可分的。主流的网站和CMS采用的也都是这种模式。因此建议大家也采用这种模式来编程,而不要采用原始的Table结构。Table结构不但管理不方便,网页体积也会变大,降低网站的加载速度。二、 采用Gzip技术对网页进行压缩采用Gzip技术对网原创 2016-04-06 11:57:24 · 1687 阅读 · 0 评论 -
使用Lucene.Net实现全文检索
目录一Lucene.Net概述二 分词三 索引四 搜索五 实践中的问题一Lucene.Net概述 Lucene.Net是一个C#开发的开源全文索引库,其源码包括“核心”与“外围”两部分。外围部分实现辅助功能,而核心部分包括:Lucene.Net.Index 提供索引管理,词组排序。Lucene.Net.Search 提供查询相关功能。Luce原创 2016-04-06 11:41:07 · 10291 阅读 · 1 评论 -
借助 Lucene.Net 构建站内搜索引擎(上)
借助 Lucene.Net 构建站内搜索引擎(上)前言:最近翻开了之前老杨(杨中科)的Lucene.Net站内搜索项目的教学视频,于是作为老杨脑残粉的我又跟着复习了一遍,学习途中做了一些笔记也就成了接下来您看到的这篇博文,仅仅是我的个人笔记,大神请呵呵一笑而过。相信做过站内搜索的.Net程序员应该对Lucene.Net不陌生,没做过的也许会问:就不是个查询嘛!为什么不能使用Like原创 2016-07-31 13:13:26 · 2909 阅读 · 1 评论 -
借助 Lucene.Net 构建站内搜索引擎(下)
借助 Lucene.Net 构建站内搜索引擎(下)前言:上一篇我们学习了Lucene.Net的基本概念、分词以及实现了一个最简单的搜索引擎,这一篇我们开始开发一个初具规模的站内搜索项目,通过开发站内搜索模块,我们可以方便地在项目中集成站内搜索功能。本次示例Demo麻雀虽小,五脏俱全,值得学习。一、项目初窥1.1 项目背景 本项目模拟一个BBS论坛的文章内容管理原创 2016-07-31 13:24:32 · 6908 阅读 · 4 评论