模板化概率模型:原理、应用与挑战
1. 模板化概率模型基础
在概率建模领域,传统的贝叶斯网络和马尔可夫网络能对固定、有限的随机变量集合进行概率分布编码。而模板化概率模型则提供了一种更强大的框架,它允许定义概率模型片段的模板。这些模板可在单个模型内重复使用,也能跨不同结构的多个模型复用,从而能对任意大的概率空间中的潜在无限分布进行编码。
模板化概率模型具有内置的奥卡姆剃刀效应,即对于解释观测数据所需的对象和实例化属性,概率最高的假设不会包含多余的部分。
2. 引用匹配问题的模板化解决方案
在引用匹配问题上,有研究使用无向模板模型来解决。其基础实例化是条件随机场(CRF)。一种方法是消除作者和出版物类,仅考虑引用之间的关系Same(C, C′) ,并将其约束为等价关系。
对于每对引用 C 和 C′ ,存在一组因子 φ1, …, φk ,它们会查看 Text(C) 和 Text(C′) 的各种特征,如第一作者的姓氏是否相同、标题的编辑距离是否在 2 以内等,并将这些特征与 Same(C1, C2) 相关联。这些因子比有向模型中的因子更明确地编码了对共指的偏好和反对。
然而,仅基于引用的模型会产生过于尖锐的后验,对参数和提及次数非常敏感。而且,在某些情况下,成对兼容性因子不足以找到正确的分区。例如,对于“Jane”“Smith”“Stanley”这三个引用,任意两个都可能指同一个人,但三个都共指的可能性不大。因此,合理的方法是使用无向模型,为每个实体及其属性设置明确的(隐藏)变量。由于使用了无向依赖关系,这种模型可以使用更丰富的特征集。
使用基于模板的概率模型的系统在识别共指引用方面的准确率可高达 90%
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



