Hello!
非常感谢您阅读小昕的文章ଘ(੭ˊᵕˋ)੭,这次分享的是本人在《机器学习》这本书的初学过程中的整理笔记
其中很多概念的定义都摘自书中原话,可能稍微会有点冗长
希望作为一次分享,珍惜本人的辛苦整理o(╥﹏╥)o
倘若文中有错误的地方,欢迎您指出~
也欢迎大家多多点赞收藏~
或者在评论区中和我一起探讨ღ( ´・ᴗ・` )比心
本文仅记录自己感兴趣的内容
第一章 笔记点击→机器学习·西瓜书|知识点梳理-第一章
第二章 模型评估与选择
·错误率(error rate)&精度(accuracy)
通常我们把分类错误的样本数占样本总数的比例称为 “错误率” (error rate),即如果在m个样本中有a个样本分类错误,则错误率E=a/m;
相应的,1-a/m称为 “精度” (accuracy),即 “精度=1-错误率" 。
·误差 (error)
学习器的实际预测输出与样本的真实输出之间的差异称为 "误差 ” (error);
学习器在训练集上的误差称为 “ 训练误差” (training error)或 “ 经验误差” (empirical error);
在新样本上的误差称为 “ 泛化误差 ” (generalization error).
*我们实际希望的,是在新样本上能表现得很好的学习器.
·过拟合 (overfitting)&欠拟合(underfitting)
学习器把训练样本学得 “太好 了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降。这种现象在机器学习中称为“过拟合” (overfitting)。
与 “ 过拟合” 相对的是 “欠拟合” (underfitting),这是指对训练样本的一般性质尚未学好.
·导致因素:
其中最常见的情况是由于学习能力过于强大, 以至于把训练样本所包含的不太一般的特性都学到了;
而欠拟合则通常是由于学习能力低下而造成的.
·欠拟合比较容易克服,例如在决策树学习中扩展分支、 在神经网络学习中增加训练轮数等。
·过拟合是无法彻底避免的,我们所能做的只是 “缓解" ,或者说减小其风险
·P类问题(Polynominal):存在多项式时间算法问题
·NP类问题(Nondeterministic Polynominal-hard problem):能在多项式时间内验证得出一个正确的解。个人理解:可以靠猜得到一个解,但不一定在多项式时间内总是可以猜对
·NP难问题(NP-hard)无法得到多项式级的算法