机器学习中的分类与降维技术解析
1. 最近邻分类方法
在机器学习的分类任务中,最近邻(NN)方法是一种常用的技术。以区分手写数字为例,当区分数字 0 和 1 时,该方法能正确预测 600 个测试点的类别标签,成功率很高。这是因为 0 和 1 的样本差异足够大,容易区分。
然而,区分数字 1 和 7 则是一项更具挑战性的任务。使用 300 个 1 的训练样本和 300 个 7 的训练样本,以及 600 个新的测试样本(包含 300 个 1 和 300 个 7)进行评估。结果显示,使用最近邻分类时出现了 18 个错误,错误率为 3%。若使用 K = 3 最近邻,分类错误减少到 14 个,有了轻微的改善。值得一提的是,最好的机器学习方法对真实世界数字(所有 10 个类别)的分类错误率低于 1%,优于“普通”人类的表现。
1.1 最近邻的概率解释
考虑有两个类别(类别 0 和类别 1)的数据情况。对于类别 0 的数据,我们构建如下混合模型:
[p(x|c = 0) = \frac{1}{N_0} \sum_{n\in class 0} N(x; x_n, \sigma^2I) = \frac{1}{N_0} \frac{1}{(2\pi\sigma^2)^{D/2}} \sum_{n\in class 0} e^{-(x - x_n)^2/(2\sigma^2)}]
其中,D 是数据点 x 的维度,$N_0$ 是类别 0 的训练点数量,$\sigma^2$ 是方差。这是一个 Parzen 估计器,将数据建模为以训练点为中心的高斯分布的均匀加权和。
同样,对于类别 1 的数据:
[p(x|c = 1) = \frac
超级会员免费看
订阅专栏 解锁全文
2313

被折叠的 条评论
为什么被折叠?



