更多分类技术:K近邻与支持向量机
1. K近邻(K-Nearest Neighbors)
1.1 k值选择的重要性
在K近邻算法中,k值的选择至关重要。若k值过小,测试集观测值的方差可能较高,尽管偏差较低;而随着k值增大,方差会减小,但偏差可能变得难以接受。因此,需要通过交叉验证来确定合适的k值。
1.2 距离计算
默认的距离计算方法是欧几里得距离,即两点间的直线距离。对于坐标分别为 $(p_1, p_2, … p_n)$ 和 $(q_1, q_2, … q_n)$ 的点A和点B,欧几里得距离公式如下:
[d(A,B)=\sqrt{\sum_{i = 1}^{n}(p_i - q_i)^2}]
由于该距离高度依赖特征的测量尺度,所以对特征进行标准化处理非常关键。
1.3 K近邻建模步骤
- 加载所需包 :
library(class) # k - 近邻
library(kknn) # 加权k - 近邻
library(e1071) # SVM
library(caret) # 选择调优参数
library(MASS) # 包含数据
library(reshape2) # 辅助创建箱线图
library(ggplot2) # 创建箱线图
library(kernlab) # 辅助SVM特征选择
- 加载并合并数据 :
<
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



