关系马尔可夫网络:用于集体分类和链接预测的概率模型
1. 引言
在统计关系学习中,一个关键挑战是设计一种表示语言,以便灵活地对复杂的关系交互进行建模。传统的统计分类方法大多聚焦于“扁平”数据,即由相同结构实体组成的数据,且通常假设这些实体相互独立。然而,现实世界中的许多数据集具有内在的关系性,如超链接网页、专利和科研论文中的交叉引用、社交网络以及医疗记录等。这些数据包含不同类型的实体,每个实体类型具有不同的属性集合,实体之间通过不同类型的链接相互关联,链接结构是重要的信息来源。
以超文本文档分类为例,若仅使用词袋模型,仅根据页面上出现的单词对每个网页进行分类,会完全忽略超文本丰富的结构信息。一个文档与其他文档存在超链接,通常表明它们的主题相关;每个文档还有内部结构,如划分为不同的部分,从文档同一部分发出的超链接更有可能指向相似的文档。因此,我们希望进行集体分类,即同时确定所有实体的类别标签,从而明确利用相关实体标签之间的相关性。
此外,预测哪些实体相互关联以及这些关系的类型也是一个挑战。例如,在包含一组超链接大学网页的数据集中,我们不仅要预测哪些页面属于教授,哪些属于学生,还要预测哪位教授是哪位学生的导师。
为解决这些问题,我们提出使用联合概率模型对整个相关实体集合进行建模。基于判别式训练的无向图模型(即马尔可夫网络),引入了关系马尔可夫网络(RMNs)框架,该框架可紧凑地在关系数据集上定义马尔可夫网络。无向模型解决了有向模型的两个局限性:一是无向模型不施加无环性约束,这使得它能够表示有向模型中难以表示的许多重要关系依赖;二是无向模型非常适合判别式训练,即在给定特征的情况下优化标签的条件似然,通常可以提高分类准确率。
超级会员免费看
订阅专栏 解锁全文
32

被折叠的 条评论
为什么被折叠?



