关系依赖网络:建模关系数据的强大工具
在数据科学和机器学习领域,关系数据的处理一直是一个重要且具有挑战性的课题。传统的统计模型往往假设实例之间是相互独立的,但大多数关系数据集却与之矛盾。例如,在引用数据中,论文参考文献的主题之间存在依赖关系;在基因组数据中,相互作用的蛋白质的功能之间也存在依赖关系。为了更好地处理这些关系数据,关系依赖网络(RDNs)应运而生。
1. 关系数据与自相关性
许多企业和组织日常收集的数据集本质上是关系型的,而不是传统的“扁平化”命题数据。命题数据记录的是同质且统计独立对象的特征,而关系数据记录的是异质对象的特征以及这些对象之间的关系。关系数据的例子包括引用图、万维网、基因组结构、欺诈检测数据、流行病学数据等。
自相关性是关系数据集中几乎普遍存在的特征,它是指相关实体上同一变量值之间的统计依赖关系。例如,超链接网页的主题、共享董事会成员的公司的行业分类、拨打共同号码的手机客户的欺诈状态等都存在自相关性。当关系数据表现出自相关性时,就有机会通过利用相关对象之间的依赖关系来提高模型性能。
2. 概率关系模型(PRMs)
为了处理关系数据中的自相关性,近年来出现了多种概率关系模型(PRMs)。这些模型通过估计整个关系数据集的联合概率分布,并集体推断相关实例的标签,从而利用自相关性。PRMs将传统的图形模型(如贝叶斯网络)扩展到关系领域,去除了传统学习技术中实例独立同分布的假设。
常见的PRMs包括关系贝叶斯网络(RBNs)和关系马尔可夫网络(RMNs)。RBNs是有向的PRMs,能够在满足模型无环约束的情况下建模自相关性依赖关系。然而,在许多情况下,无环排序是未知的或不存在的,这限制了RBNs在关
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



