Query聚类(或者叫计算相似关键词)的基本方法:
(1) 如果query中有相同的词,那么这些query是相关的。
(2) 寻找query和通过query点击的文档的集合。点击的文档可以替换成其他形式。目的是构成“通过不同的query点击相同的事物”这样的关系。
(3) 一和二方法的融合
之前的实现:
使用二分图。一边是query的集合,一边是document的集合。通过点击把两个结合之间相关的点连接起来。
计算方法:交集除以并集。
本文提出的方法:
类似的二分图的方法。可以除去噪声?