有效查询表述的相关特征发现
在信息检索领域,查询表述的质量对于获取准确、相关的信息至关重要。本文将介绍一种利用数据挖掘技术提取高质量特征进行查询表述的方法,以及该方法在信息过滤中的应用和实验评估。
1. 背景与基础方法
在评估训练集中每个术语的支持度(权重)时,会用到训练文档。例如,PDM 方法采用 SPMining 算法在正文档中发现模式。对于每个正文档 $d_i \in D^+$,该算法基于给定的最小支持度(min sup)提取一组模式 $SP_i$。对于给定的术语 $t \in D^+$,其在模式中的支持度(权重)由以下公式分配:
[support(t, D^+) = \sum_{i=1}^{n} \sum_{t \in p \subseteq SP_i} \frac{supr(p, d_i)}{|p|}]
其中,$|p|$ 是模式 $p$ 中的术语数量。这些术语被用于形成信息过滤的查询向量。
2. 提出的方法
提出的方法主要包括两个部分:模式精炼和查询提取。假设已经为所有正文档 $D^+$ 挖掘出一组模式,记为 $F^+$,称为正模式。
2.1 模式精炼
模式精炼的目的是提高模式的质量,主要通过挖掘负相关反馈和选择负文档来实现。
-
挖掘负相关反馈 :负相关反馈(NRF)包含不相关信息,有助于估计正文档的边界,捕捉相关与不相关信息之间的差异。根据正模式和负模式之间的关系,可将正文档中的噪声模式分为以下两类:
- 无意义模式 :如果正模式