1 概述
交叉验证的使用:模型评价、超参数(阈值)优选,保证数据集同分布留一法交叉验证——MAE平均绝对误差 评价
MAE(2 P68)
实值函数回归
2 KNN模型
KNNStep1 预处理
x估计=x-μ/σ
并且记录{μ(k),σ(k),k=1,2,3,4}
平均错误率、标准差
Step2 选K值 KNN中的K
m-fold(v) 2 p21
错误率最小的,作为最终的K,对样本集进行预测,K不能为偶数
m次,取n-1份作为训练集,1作为验证集合,得到(Acc(k),K)
Step3 决策
K近邻回归,2类别分类K为奇数,防止相等无法判断
p44 混淆矩阵
自然状态*预测输出(TP、FN、FP、TN)
p46 评价指标要记
总体正确率、总体错误率、查准率Precision、查全率Recall/灵敏度Sensiticity、特异度(真阴性率)、漏报率(假阴性率)、虚警率(假阳性率)、Fβ-Score(查准率和查全率的调和平均)F=2Precision·Recal /(Precision+Recall)
马修相关系数、Kappa系数
宏平均:先带入xx率公式计算,再求平均值
微平均:先求平均值,再带入xx率公式计算
3 基于树的模型
决策树主要是cartcart tree
不纯性度量:
-分类目标:Gini指标
-连续目标:最小平方残差、最小绝对残差
分类:叶子节点的输出怎么确定? ①方差最小②基尼指数
最小二乘回归树:最优切分变量和切分点
&nb