提升信息检索与社交网络信息传播性能的新方法
在当今信息爆炸的时代,信息检索系统的性能提升以及社交网络中信息的有效传播至关重要。本文将介绍两种不同但都具有创新性的方法,一种是基于模糊逻辑的信息检索系统相似度度量方法,另一种是利用流权威模型在社交网络中最大化信息或影响传播的算法。
基于模糊逻辑的信息检索系统相似度度量
信息检索(IR)系统旨在根据用户定义的查询检索相关文档。在过去的几十年中,人们提出了各种方法来提高IR系统的性能。相似度度量在开发高质量的IR系统中起着重要作用,它用于对文档进行排序,以确定它们与查询的相关性。
-
现有模型与方法
- 布尔模型 :早期的IR系统大多采用布尔模型,它利用布尔逻辑和集合理论的概念。文档和查询被表示为术语的集合,每个术语的存在或缺失分别用1和0表示。然而,布尔模型存在一些局限性,如二进制决策标准缺乏分级概念和文档过载问题。
- 向量空间模型 :向量空间模型将文档和查询内部表示为向量。所有查询和文档都在|V|维空间中表示,其中V是集合中所有不同术语的集合(词汇表)。该模型具有简单、快速、能处理加权术语、能生成排名列表以及索引过程自动化等优点,因此本文将其作为基础模型。
- 常见相似度度量 :过去,IR系统中最常用的相似度度量包括余弦、欧几里得、杰卡德和Okapi等。近年来,也有一些研究提出了新的相似度度量方法,如将相似度函数表示为树和经典生成方案、提出组合相似度度量并使用遗传算法优化权重等。
超级会员免费看
订阅专栏 解锁全文
2081

被折叠的 条评论
为什么被折叠?



