搜索引擎基础知识

1.倒排索引

    又称反向索引。它将文档中的词做为关键字,建立词与文档的映射关系。可以通过对倒排索引的检索,可以快速获取包含这个词的文档列表。这对任何搜索引擎来说都是至关重要的。

2.分词

    分词就是将句子或者段落进行切割,从中提取出包含固定语义的词。

3.停止词

   在不同语言中都包含了很多使用频率特别高的词汇,如果这些词汇都被建立到索引中进行索引的话,搜索引擎就没有意义了。因此,停止词需要被忽略掉。

4.排序

    当输入一个关键词进行搜索的时候,可能会命中许多文档,搜索引擎的价值在于帮助用户快速定位到需要的文档,因此,需要将相关度大的内容放在前面。这就需要有适当的排序算法,一般来说,名字标题的文档比命中内容的文档有更高的相关性。命中多次的文档比命中一次的文档有更高的相关性。商业的搜索引擎的排序算法还会融入广告,竞价排名等因素,一般属于商业机密

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大道化简

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值