《Clustering search engine query log containing noisy clickthroughs》

本文介绍了一种Query聚类的基本方法,包括通过寻找相同词汇来判断Query的相关性、利用点击行为构建二分图来关联Query与文档,以及采用交集除以并集的方式计算相似度。文中还探讨了一种新的改进方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Query聚类(或者叫计算相似关键词)的基本方法:

 (1)       如果query中有相同的词,那么这些query是相关的。

(2)       寻找query和通过query点击的文档的集合。点击的文档可以替换成其他形式。目的是构成“通过不同的query点击相同的事物”这样的关系。

(3)       一和二方法的融合

之前的实现:

使用二分图。一边是query的集合,一边是document的集合。通过点击把两个结合之间相关的点连接起来。

计算方法:交集除以并集。

本文提出的方法:

         类似的二分图的方法。可以除去噪声?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值