模式识别中的分类方法与模型权衡
1. 模型复杂度与权衡
在模式识别以及更广泛的建模领域中,模型复杂度是一个关键问题。过于复杂的模型可能会导致高方差,其在特定值 $x$ 处的预测结果可能会因不同的设计集而发生巨大变化。例如,一个具有过多自由参数的模型,在样本量较小的数据集中很容易出现过拟合现象。相反,过于简单的模型则会带来高偏差,就像用直线去拟合二次回归的“真实情况”,虽然拟合的直线在不同设计集之间变化较小,但对于某些预测变量的值,线性模型的预测结果可能会与二次回归的真实值有很大偏差。
模型的目标是在这两者之间找到一个可接受或最优的折衷方案。判断一个模型是否“过于复杂”,还取决于数据集的大小。例如,一个具有 100 个自由参数的模型,对于仅 200 个点的样本可能会过拟合,但对于 100000 个点的样本则可能不会。
2. 线性判别分析(LDA)
2.1 基本原理
线性判别分析(LDA)是最早被正式提出的方法之一。在两类问题中,它考虑 $x$ 各分量的线性组合 $w’x$,其中使得类间均值差异相对于类内合并方差最大的线性组合为:
$w \propto S^{-1}(\overline{x}_1 - \overline{x}_2)$
这里,$S$ 是 $x$ 的组内合并协方差矩阵,$\overline{x}_i$ 是第 $i$ 类的质心。对新点 $x$ 进行分类时,将 $w’x$(乘以某个比例常数)与分类阈值进行比较,这相当于在原始 $x$ 空间中使用超平面决策面。
2.2 分布假设与最优性
虽然该方法没有对分布做出假设,但如果假设两类具有多元正态分布且协方差矩阵相等,那么
超级会员免费看
订阅专栏 解锁全文
3315

被折叠的 条评论
为什么被折叠?



