18、有效查询表述的相关特征发现

有效查询表述的相关特征发现

在信息检索领域,查询表述的质量对于获取准确、相关的信息至关重要。本文将介绍一种利用数据挖掘技术提取高质量特征进行查询表述的方法,以及该方法在信息过滤中的应用和实验评估。

1. 背景与基础方法

在评估训练集中每个术语的支持度(权重)时,会用到训练文档。例如,PDM 方法采用 SPMining 算法在正文档中发现模式。对于每个正文档 $d_i \in D^+$,该算法基于给定的最小支持度(min sup)提取一组模式 $SP_i$。对于给定的术语 $t \in D^+$,其在模式中的支持度(权重)由以下公式分配:
[support(t, D^+) = \sum_{i=1}^{n} \sum_{t \in p \subseteq SP_i} \frac{supr(p, d_i)}{|p|}]
其中,$|p|$ 是模式 $p$ 中的术语数量。这些术语被用于形成信息过滤的查询向量。

2. 提出的方法

提出的方法主要包括两个部分:模式精炼和查询提取。假设已经为所有正文档 $D^+$ 挖掘出一组模式,记为 $F^+$,称为正模式。

2.1 模式精炼

模式精炼的目的是提高模式的质量,主要通过挖掘负相关反馈和选择负文档来实现。

  • 挖掘负相关反馈 :负相关反馈(NRF)包含不相关信息,有助于估计正文档的边界,捕捉相关与不相关信息之间的差异。根据正模式和负模式之间的关系,可将正文档中的噪声模式分为以下两类:

    • 无意义模式 :如果正模式
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值