机器学习中的朴素贝叶斯与支持向量机模型
在机器学习领域,有多种模型可用于解决各类问题,如文本分类、作者身份识别等。本文将详细介绍朴素贝叶斯和支持向量机(SVM)这两种模型。
1. k - NN 方法概述
k - NN(k - 最近邻)方法是一种简单易懂的分类方法,它通过加权投票来确定样本的类别。不过,确定一个高效的 k 值并非易事,需要评估不同的解决方案以验证其有效性。
1.1 k - NN 方法的优缺点
- 优点 :易于理解,并且能够为最终决策提供依据。
- 缺点 :
- 该分类器对无关或有噪声的属性较为敏感。因此,在构建 k - NN 分类器之前,应用特征选择程序是一个明智的选择。
- 计算成本较高。为了确定 k 个最近邻,必须计算与训练集中所有文本替代物的距离。
1.2 降低计算成本的方法
- 聚合向量 :将属于同一类别的所有向量聚合起来生成一个唯一的轮廓。对查询文本进行分类时,只需计算与所有轮廓的距离并选择最近的一个。
- 使用 kD - 树(或 kD - 球) :将训练样本组织成 kD - 树(或 kD - 球),避免与所有实例计算距离,而只与少数实例计算。通常,执行 k - NN 方法的库会实现这些隐藏的数据结构,而不改变最终结果。
超级会员免费看
订阅专栏 解锁全文
7215

被折叠的 条评论
为什么被折叠?



