基于αβ邻域的自适应文档过滤方法
1. 引言
信息过滤系统旨在从信息流中筛选出满足用户信息需求的文档。系统为每个用户维护一个代表其信息需求的配置文件。对于每个传入文档,系统需做出接受或拒绝的二元决策。若系统能定期接收用户关于已交付文档是否相关的反馈,即为自适应过滤系统。这种反馈为系统提供在线学习的训练示例。
常见信息过滤系统构建分类器时需要大量训练文档,而自适应过滤系统期望能用少量训练示例开始分类,并依据用户反馈增加知识。现有自适应过滤方法包括Rocchio算法、逻辑回归和支持向量机等。这些方法常以单个向量表示用户配置文件,假设配置文件中的文档围绕该向量均匀分布,但实际中满足用户信息需求的文档可能分布不规则。
为解决此问题,提出一种新的自适应过滤方法,用一组文档表示配置文件,并根据新检索文档的反馈更新。分类使用基于αβ邻域的最近邻(NN)规则,同时定义投票方案和决策规则用于自适应过滤问题。该方法在TREC - 11基准数据集上评估,实验表明,当配置文件存在内部差异时,此方法性能优于其他方法;对于接近均匀的配置文件,也能取得相当的结果。
2. 相关工作
自适应文档过滤主要有两种方法:检索 + 阈值法和文本分类法。
- 检索 + 阈值法 :利用为信息检索(IR)设计的算法构建自适应过滤策略。系统用IR算法为每个传入文档打分,分数高于阈值的文档视为相关。例如,Yang和Kisiel提出基于边界的局部回归算法更新阈值并应用于Rocchio算法;Tebri等人提出基于Rocchio算法的系统,用强化学习算法更新向量配置文件的权重。
- 文本分类法 :将
超级会员免费看
订阅专栏 解锁全文
933

被折叠的 条评论
为什么被折叠?



