分布式集合上基于PageRank的个性化排名
1. 引言
在当今的工作环境中,协作工作已成为企业成功的关键因素。人们不再孤立地工作,而是通过各种工具(如电子邮件客户端、即时通讯、博客、维基或共享存储库)相互交流信息。个人桌面也因此成为与其交互的所有其他桌面信息的总和。在这样的协作工作环境中,访问这些相互连接的信息源变得至关重要,但目前这一功能仅得到了部分解决。
个人信息管理正日益受到数据库社区的关注,分布式和异构的数据空间将把数据库扩展到集中式和结构化信息存储库之外。社交语义桌面范式将数据注释、组织和搜索集成在桌面上,有望通过连接工作组中的所有共享数据资源来提供协作工作环境。
NEPOMUK项目旨在创建这样一个基础设施,通过提供对个人或团队努力创建的所有信息的无缝访问,改善在线协作和个人数据管理的现状。在NEPOMUK环境中,对等节点共享全文和半结构化信息,这些信息涉及出版物、报告、桌面文档、电子邮件、浏览的网页、地址簿等。元数据代表了这些资源的额外信息,并通过语义关系将它们连接起来。基于这个基础设施,高级搜索和排名功能可以利用传统的信息检索(IR)信息(如文档和集合中的词频)以及与链接相关的信息(PageRank类算法的基础,如ObjectRank)。
然而,将这些排名方案扩展到分布式环境并非易事,因为这涉及到可能的私有信息的(部分)共享。虽然联合图书馆中存在分布式集合的解决方案,但它们仅提供基于TFxIDF指标的传统IR排名。我们将研究需要共享哪些资源和信息,以实现对等节点之间基于PageRank的个性化排名,并探讨算法如何考虑这些资源的隐私约束。
超级会员免费看
订阅专栏 解锁全文
1227

被折叠的 条评论
为什么被折叠?



