基于不确定性的主动学习
在机器学习领域,样本选择是提升学习器性能的关键环节。本文将围绕基于不确定性的主动学习展开,介绍模糊决策树、最大模糊度样本选择算法(MABSS),并通过实验对比不同样本选择方法的性能。
模糊决策树与样本模糊度估计
在清晰决策树中,新实例匹配决策树时,输出是确切的类别,因为只有一条规则匹配该实例。而在模糊决策树中,新实例匹配的输出不是确定的类别标签,而是一个向量,向量的每个元素分别表示该实例属于相应类别的隶属度。
设 $T$ 是训练好的模糊决策树,$x$ 是类别信息未知的新实例。将实例 $x$ 与模糊决策树 $T$ 匹配,得到模糊集 $\pi = (\pi_1, \pi_2, \ldots, \pi_k)$,其中每个分量表示 $x$ 属于相应类别的隶属度。则 $x$ 的估计模糊度定义为:
$EA(x) = Ambiguity(\pi)$
其中,$Ambiguity(\pi)$ 由公式 (4.9) 给出。
最大模糊度样本分析
通常,样本选择的目标是找到有信息价值的样本并添加到训练集中,以提高当前学习器的性能。许多现有的样本选择算法选择误分类的样本,认为这些样本对提高学习器的学习精度比正确分类的样本更有帮助。
这种思想可以扩展到不确定性环境中。可能被误分类的样本通常位于决策边界附近,使用当前学习器难以对其进行分类。我们认为,具有更多分类模糊度的样本可以为学习器提供更多信息。
以一个简单的二元分类问题为例,假设实例是 $x$ 轴上的一个点,其类别标签由函数 $f(x) = e^{-(x - 1)^2} - e^{-(x + 1)^2}$ 确定。
- 若
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



