搜索中客户的访问日志到底能用来做什么(4)?

timegoesby_001

于 2013-11-29 15:57:03 发布

阅读量997

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据处理搜索技术

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/cloudusers/article/details/17025395

搜索技术同时被 2 个专栏收录

26 篇文章

订阅专栏

大数据处理

18 篇文章

订阅专栏

本文探讨了质量评测算法在搜索引擎中的应用，包括MRR、MAP、DCG和P@N算法，阐述了它们的优缺点，并介绍了客户端访问日志在相关搜索与广告推荐中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

质量评测算法（方法）

各种评测算法或方法都离不开用户的目标点击，比如用户查询一个word，点击的都集中到了第一页的最后一项，那至少说明你这个第一页排序有问题，没有把用户想要的结果最直接的提供给用户（大部分搜索完都只看前几条，觉得不靠谱就会转个查询词再搜或干脆换个搜索引擎）

多说一句：质量评测算法不是主要的，问题是要根据总结的特征修改各引擎数据合并成第一页的展现策略，当然这些个算法或方法能够直观的反映出你这个搜索引擎靠不靠谱

或是你更新某个展现策略的时候，是否真的有积极的改善效果而不是越改越差劲

MRR算法

描述：MRR是平均排序倒数的简称，对一个搜索词计算第一个相关文档的位置，这个位置的倒数即为这个搜索词的分数，例如一个搜索词，第三个位置的结果最相关，则RR=1/3 = 0.3333, 最终搜索词集合 MRR就是集合RR的算术平均值。

优点：简单，对导航类查询词较好

缺点只考虑了一个位置

MAP算法

描述：求每个相关内容检索后的准确率的平均值，然后对查询词集合的打分再做算术平均。

例如，一个搜索词，有4个相关网页，位置分别为1、2、4、7，那么这个词的得分为：（1/1 + 2/2 + ¾ + 4/7）/4= 0.83

优点：考虑了每个相关内容的位置对总体得分的影响

缺点：只考虑了相关内容的影响

DCG算法

描述：每条结果的相关性是有等级的，比如好，非常好，不好，非常不好等；要考虑到结果所在的位置，位置越靠前重要程度越高；好结果位置越靠前则奖励越高，坏结果越靠前则惩罚越高。公式为： DCGp = rel 1+ ∑reli/logi （2<=i<=p）

优点：评分较为精准，很符合人的评价思维

缺点：需要人工来确定每个位置的结果的分值，这个就不利于程序进行自动化处理

P@N算法

描述:对特定的查询，考虑位置因素，检测前N条结果的准确率，例：对单次搜索结果前5篇，如果有4篇为相关文档，则P@5 = 4/5 = 0.8

优点：简单直观

缺点：结果位置对分值无差异（实际上位置对分数应该有不同的贡献值）

客户端访问日志之相关搜索与广告推荐

待续

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。