1、训练误差和一般误差的误差界:即为什么选择训练误差最小就能代表模型预测能力较好?原因即两个误差存在差值范围。
2、偏差-方差均衡
偏差:预测结果的错误率,对应欠拟合,未拟合出数据的正确结构,所以不论输入什么数据,输出结果都不好。对于高偏差,可以使用增加特征数目、选择更好的特征。
方差:拟合出来的奇怪的关系,对应过拟合,当预测数据与寻来你数据属性相近,则正确率较高,不相似则产生差异,造成结果预测的波动性。模型推广能力差。对于高方差,可以采取增加样本数目,降低特征数目。
3、模型的选择:选择最小的一般误差
对于(1)多项式次数选择、(2)SVM惩罚力度、(3)局部加权回归带宽参数
交叉验证方法:
(1)训练集70%,测试集30%
(2)k-fold 交叉验证。选择平均一般误差最小的
(3)留1验证
4、特征选择:
(1)前向搜索,每次加入一个特征交叉验证
(2)后向搜索(每次减少一个特征交叉验证)
(3)过滤特征选择算法(使用相互信息即特征和结果概率分布的关联性,来分析关大小,选取前K个最相关的,k可以人为指定,也可以使用交叉验证)
5、机器学习的建议:误差诊断
误差分析:对每一个模块用标准答案替代,看看准确度能提高多少,提高的最多,说明该部分误差最大
消蚀分析:去掉一个特征,看精度下降多少,下降的越多,说明该特征越重要