lucene原理学习笔记(二)

本文详细介绍了如何搜索Lucene索引并计算文档与查询之间的相关性,包括词法分析、语法分析、语言处理、搜索索引、计算相关性及排序等步骤。通过向量空间模型,将文档和查询转化为向量,并计算它们之间的夹角余弦值来衡量相关性,最终按相关性排序展示查询结果。

上一篇文章介绍了Lucene的索引结果以及建立索引的步骤,这篇文章就介绍一下如何搜索索引。

第一步,用户输入查询语句。

第二步,对查询语句进行词法分析、语法分析以及语言处理。

1、词法分析主要用来识别单词和关键字。

2、语法分析主要根据查询语句的语法规则来形成一棵语法树。

3、语言处理同索引过程中的语言处理几乎一致,比如词根的处理。

第三步,搜索索引,得到符合语法树的文档。

第四步,计算得到的文档和查询之间的相关性,对查询结果进行排序。

如何来计算文档和查询之间的相关性呢?在此做一个假设,我们将查询看作是一个很短小的文档,这样就变成计算文档和文档之间的相关性了,计算出来的分数越高就说明越相关,排序就越靠前。

那么如何计算文档和文档之间的相关性呢?进过分析可以发现,文档是由很多词(Term)组成的,如lucene、solr、search等,进一步分析还可以发现不同的词对文档的重要性是不一样的,比如对一个文档solr和search在这个文档中是很重要的,但是this、what和a则显得不那么重要。所以对于两篇文档来说如果同时包含solr和search则说明这两篇文档相关性比较高,即使文档中不包含this、what也不会影响到文档的相关性。

因此计算文档的相关性,首先要找出那些词对文档之间的关系比较重要,比如solr和search,然后计算词之间的关系,找出词重要性的过程可以称为计算词在文档中的权重。

计算词的权重,有两个参数,第一个是词(Term),第二个是文档(Document)。词的权重代表词在文档中的重要程度,权重越大,越能影响文档之间的相关性。判断词之间的相关性从而得出文档之间的相关性,有一种方法叫做向量空间模型(Vector Space Model)。

下面就分析一下计算词的权重的过程,

影响一个词在文档中重要性的主要因素有两个。

1:词频,即词出现在文档中的次数,数值越大说明重要性越大。

2:文档频率,即有多少个文档包含此词,这个数值越大说明词的重要性越小,因为这样就无法区分不同的文档了,因此重要性就很低。

计算权重的公式如下图

上面的公式只是计算词的权重的典型实现,不同的搜索引擎可以有不同的实现。

通过上面计算出来的词的权重,计算词之间的关系从而得出文档的相关性,也就是应用空间向量模型方法。

把文档分解成是由多个词组成的,不同词的权重在所在文档中计算,由此我们可以把词的权重看作是向量。

Document={term1,term2,...,termn}

Document Vector={weight1,weight2,...,weightn}

同样的道理我们可以把用户的查询语句看作是向量

Query={term1,term2,...,termn}

Query Vector={weight1,weight2,...,weightn}

然后把搜索出来的文档向量和查询向量放到一个N维空间中,每一个词是一个向量,如下图所示

在这里我们认为向量之间的夹角越小,相关性越大。我们用夹角之间的余弦值计算向量之间的相关性,余弦值越大,夹角越小,相关性越大。计算余弦值得公式如下图

通过计算出来的余弦值进行排序,查询出来的文档就可以按相关性显示出来了,越在前面说明相关性越大。

转载于:https://www.cnblogs.com/wangxiaomeng/p/4606250.html

1)普通用户端(全平台) 音乐播放核心体验: 个性化首页:基于 “听歌历史 + 收藏偏好” 展示 “推荐歌单(每日 30 首)、新歌速递、相似曲风推荐”,支持按 “场景(通勤 / 学习 / 运动)” 切换推荐维度。 播放页功能:支持 “无损音质切换、倍速播放(0.5x-2.0x)、定时关闭、歌词逐句滚动”,提供 “沉浸式全屏模式”(隐藏冗余控件,突出歌词与专辑封面)。 多端同步:自动同步 “播放进度、收藏列表、歌单” 至所有登录设备(如手机暂停后,电脑端打开可继续播放)。 音乐发现与管理: 智能搜索:支持 “歌曲名 / 歌手 / 歌词片段” 搜索,提供 “模糊匹配(如输入‘晴天’联想‘周杰伦 - 晴天’)、热门搜索词推荐”,结果按 “热度 / 匹配度” 排序。 歌单管理:创建 “公开 / 私有 / 加密” 歌单,支持 “批量添加歌曲、拖拽排序、一键分享到社交平台”,系统自动生成 “歌单封面(基于歌曲风格配色)”。 音乐分类浏览:按 “曲风(流行 / 摇滚 / 古典)、语言(国语 / 英语 / 日语)、年代(80 后经典 / 2023 新歌)” 分层浏览,每个分类页展示 “TOP50 榜单”。 社交互动功能: 动态广场:查看 “关注的用户 / 音乐人发布的动态(如‘分享新歌感受’)、好友正在听的歌曲”,支持 “点赞 / 评论 / 转发”,可直接点击动态中的歌曲播放。 听歌排行:个人页展示 “本周听歌 TOP10、累计听歌时长”,平台定期生成 “全球 / 好友榜”(如 “好友中你本周听歌时长排名第 3”)。 音乐圈:加入 “特定曲风圈子(如‘古典音乐爱好者’)”,参与 “话题讨论(如‘你心中最经典的钢琴曲’)、线上歌单共创”。 (2)音乐人端(创作者中心) 作品管理: 音乐上传:支持 “无损音频(FLAC/WAV)+ 歌词文件(LRC)+ 专辑封面” 上传,填写 “歌曲信息
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值