《Clustering search engine query log containing noisy clickthroughs》

于 2009-09-04 09:04:07 发布 · 131 阅读

·

0

·

文章标签：

论文阅读专栏收录该内容

3 篇文章

订阅专栏

本文介绍了一种Query聚类的基本方法，包括通过寻找相同词汇来判断Query的相关性、利用点击行为构建二分图来关联Query与文档，以及采用交集除以并集的方式计算相似度。文中还探讨了一种新的改进方法。

Query聚类（或者叫计算相似关键词）的基本方法：

（1）如果query中有相同的词，那么这些query是相关的。

（2）寻找query和通过query点击的文档的集合。点击的文档可以替换成其他形式。目的是构成“通过不同的query点击相同的事物”这样的关系。

（3）一和二方法的融合

之前的实现：

使用二分图。一边是query的集合，一边是document的集合。通过点击把两个结合之间相关的点连接起来。

计算方法：交集除以并集。

本文提出的方法：

类似的二分图的方法。可以除去噪声？

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。