利用随机逻辑程序进行多类预测
1. 引言
多类分类是机器学习中的核心问题,因为需要在多个类别之间进行区分的应用无处不在。这里考虑使用概率归纳逻辑编程(PILP)方法来解决多类预测/分类问题。传统的归纳逻辑编程(ILP)程序会有一个包含属于 N(N ≥ 2)个不同类别的示例的训练数据集,目标是构建一种方法,在给定一个新的未标记数据时,能够正确预测该数据所属的类别。
问题的动机源于之前蛋白质折叠预测研究中发现的多重预测问题,即许多蛋白质被预测属于多个蛋白质折叠,但实际上每个蛋白质应该只有一个唯一的预测。这在二分类中被称为“假阳性”问题,会导致模糊的预测结果。例如,在动物分类程序中,蝙蝠会被预测同时属于哺乳动物和鸟类,海豚会被预测同时属于哺乳动物和鱼类。
二分类是将给定对象集的成员根据是否具有某些属性分为两组,这已经得到了很好的理解。然而,多类分类需要额外的技术。当前大多数多类分类技术是在判别分类方法中发展起来的,包括决策树、核方法、支持向量机和神经网络等。一些方法直接扩展二分类算法来处理多类问题,另一些则基于基本的二分类方法构建多类方法。这些方法与基于 ILP 的分类器相关性有限,因为它们大多基于正则化、建模决策边界或评估多个二分类方法。在基于逻辑的分类方法(如 ILP)中,多数投票常被用来解决多重预测问题,但其性能取决于数据的经验分布和(不)平衡特征。
为了解决 ILP 分类器中自然存在的多重预测不确定性,这里使用 PILP 技术,它旨在将统计学习和概率推理集成到逻辑或关系知识表示中。近年来,越来越多的人尝试在实际环境中使用 PILP 方法。这里将随机逻辑程序(SLPs)这一现有的 PILP 框架应用于学习概率逻辑程序,以解决蛋白质折叠预测研究和一个工作示例中检
超级会员免费看
订阅专栏 解锁全文
4897

被折叠的 条评论
为什么被折叠?



