生物信息学中用于预测学习的描述性ILP增强方法
1. 剪枝操作
在特定语法下,WeakILP会穷举生成语言中的所有分类规则,但会排除那些符合用户指定最小覆盖率要求的示例数量过少的规则。这种剪枝操作主要是为了提高计算效率。
若某个分类规则未覆盖任何训练示例,它对分类就没有贡献,因为无论对训练示例如何加权,其训练准确率都不会高于默认分类器。因此,增强算法不会选择由零覆盖率分类规则派生的基分类器。此外,那些仅覆盖极少数训练示例的规则可能过于针对这些特定示例,对训练结果的影响不大。剪去这些规则能显著减少增强算法需要评估的分类器数量。
2. 规则转换
对于预测学习任务,我们会根据一阶分类规则对每个训练示例的评估结果,将其转换为二元分类器,这些分类器将作为增强算法的候选基分类器。我们尝试了两种转换方法:
2.1 基于真值的转换方法
这是一种直观的转换方法,根据分类规则对每个示例的真值进行转换。假设 $R(X, K)$ 是一个分类规则,对应的分类器定义为:
[
f(x_i) =
\begin{cases}
+1 & \text{如果 } R(x_i, K) \text{ 为真} \
-1 & \text{否则}
\end{cases}
]
其中 $R(x_i, K)$ 是通过将 $X$ 替换为特定示例 $x_i$ 得到的 $R(X, K)$ 的实例化。
2.2 基于实例化的转换方法
我们还提出了一种基于分类规则的基实例化数量的转换方法。给定分类规则 $R(X, K)$,对应的二元分类器定义
超级会员免费看
订阅专栏 解锁全文
18

被折叠的 条评论
为什么被折叠?



