探索逆文档频率(IDF)词加权的稳定性
1. 引言
自动信息检索长期以来被建模为文档集合与用户信息需求之间的匹配。在基于此模型的任何实现中,文档集合和用户信息需求的表示是关键考量,主要涉及两个问题:确定表示中应包含哪些术语以及确定术语权重。
TF·IDF是当今信息检索系统中最常用的术语加权方案之一。TF(词频)是指一个术语在文档中出现的次数,IDF(逆文档频率)基于计算被搜索集合中被该术语索引的文档数量。其直觉是,在许多文档中出现的术语不是一个好的区分器,应比在少数文档中出现的术语赋予更低的权重。TF和IDF的乘积TF·IDF用于表示一个术语在表示文档时的重要性。
在过去三十年中,IDF的合理性和实现一直是一个开放的研究问题。一方面的研究集中在IDF计算本身,并提出替代的IDF计算算法;另一方面的研究寻求IDF的理论依据,并试图理解为什么TF·IDF在TF和IDF存在于不同空间的情况下仍能很好地工作。
已有大量关于词频分布和其他人为或自然现象的研究。这些现象通常遵循幂律概率密度函数和Zipf或泊松混合频率排名分布,但对于分布函数中参数的值存在不同观点,且参数可能因体裁、作者、主题等而异。此外,许多早期实验是在摘要而非全文集合上进行的,全文中的语言模式可能与摘要有很大不同。
本研究旨在研究基于全局集合和不同样本的IDF分布之间的异同,并测试IDF度量在不同集合中的稳定性。其动机在于,对于现实世界的集合,提前了解IDF要么不可能,要么成本太高。实际目标是开发一种更高效的算法,减少计算时间和成本,同时能很好地近似基于整个集合计算的IDF。在动态环境中,如网络,了解新信息添加时基于集合的权重如何演变,有助于做出如集合大小增加超过x百分比时更新IDF
IDF词加权稳定性的实证研究
超级会员免费看
订阅专栏 解锁全文
1127

被折叠的 条评论
为什么被折叠?



