模式分类与线性分类器详解
1. KNN方法的问题与解决方案
在模式分类中,传统的方法存在一些重要问题。以KNN(K-Nearest Neighbors)方法为例,它有两个显著的问题。
- 计算与存储消耗大 :要确定一个查询向量的类别,需要分别计算它与训练集中所有样本的距离。如果没有像划分输入空间这样的解决方案,在处理大规模数据集时,这会非常耗时且占用大量内存。
- 维度灾难问题 :在高维空间中,欧几里得距离会变得非常相似。这意味着,如果KNN的输入是高维向量,那么最近和最远向量之间的差异可能很小,从而导致对查询向量的分类错误。
为了缓解这些问题,我们尝试寻找一个判别函数来直接对决策边界进行建模。判别函数可以是一个非线性函数,但线性分类器是建模决策边界的一种简单方法。
2. 线性分类器
2.1 二元分类问题中的线性分类器模型
假设我们面临一个二元分类问题,其中d维输入向量 $x \in R^d$ 的标签只能是1或 -1。例如,在图像中检测交通标志就可以被表述为一个二元分类问题。给定一个图像块,目标是判断该图像是否代表交通标志,交通标志和非交通标志的图像可以分别用标签1和 -1 表示。
输入向量 $x$ 的第 $i$ 个元素用 $x_i$ 表示,它可以通过计算以下线性关系进行分类:
[f(x) = w_1x_1 + \cdots + w_ix_i + \cdots + w_dx_d + b]
其中,$w_i$ 是与 $x_i$ 相关的可训练参数,$b$ 是另一个可训练参数,称为截距或偏置。这个方程在d维欧几里得空间中表
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



