搜索引擎-查询

基本过程:1,用户提交查询词;2,查询词分词得到检索词;3,通过检索系统得到检索词所对应的文档;4,对文档进行排序;5,获得文档内容(摘要);6,生成页面。

TF/IDF计算检索向量的权重。

向量空间模型计算检索向量和文档向量的相关度;布尔模型要求每个检索词都出现,计算速度快。

实际中要结合两种方法,先按照布尔模型求交集,再按照向量空间模型计算。

多文档列表求交,先求最短的文档的交集,可以提高效率。

检索结果按照堆排序,可以优先显示相关度最高的文档。

自动摘要获取方法:1,在文档中标记查询词出现的位置;2,从第一个查询词开始,依次求出指定窗口长度的文本作为候选窗口;3,计算候选窗口的评分,取评分最高的;4,尽量取头去尾。

生成页面很简单,取文档的摘要和url即可。

搜索页面缓存,最常搜索页面载入缓存内存;次常搜索页面载入磁盘缓存;最常检索单词结果页载入内存缓存。

推测用户查询意图:根据查询日志分析,方法具体问题具体分析;

查询系统发展方向:1,推测用户意图;2,细分领域突破;3,优化查询结果,例如页面聚类;4,个性化服务。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值