1.机器学习的概念
-1.1 有监督
监督学习(supervised Learning)的数据集中的每个样本都有相应的“正确答案”,再根据这些样本作出预测,训练资料是由
输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。
-1.2 无监督
无监督式学习(Unsupervised Learning )目的是对原始资料进行分类,以便了解资料内部结构。
有别于监督式学习网络,无监督式学习网络在学习时并不知道其分类结果是否正确,亦即没有受到监督式增强(告诉它何种学习是正确的)。
其特点是仅对此种网络提供输入范例,而它会自动从这些范例中找出其潜在类别规则。典型例子就是聚类(Clustering)。
-1.3 泛化能力
泛化能力(generalization ability)是指机器学习算法对新鲜样本的识别能力和对未知数据的预测能力。
一般来讲,模型或算法的学习能力低下是因为其对数据深层次的规律特点并未全面掌握,而只是“死记硬背”的将样本数据
特征进行了记录,这就是过拟合导致的。
-1.4 过拟合,欠拟合(方差和偏差以及各自解决办法)
对于训练好的模型,若在训练集表现差,不必说在测试集表现同样会很差,这可能是欠拟合导致;若模型在训练集表现非常好,
却在测试集上差强人意,则这便是过拟合导致的。
欠拟合会导致高 Bias ,过拟合会导致高 Variance ,所以模型需要在 Bias 与 Variance 之间做出一个权衡。
使用简单的模型去拟合复杂数据时,会导致模型很难拟合数据的真实分布,这时模型便欠拟合了,或者说有很大的 Bias,
Bias 即为模型的期望输出与其真实输出之间的差异;有时为了得到比较精确的模型而过度拟合训练数据,或者模型复杂度
过高时,可能连训练数据的噪音也拟合了,导致模型在训练集上效果非常好,但泛化性能却很差,这时模型便过拟合了,
或者说有很大的 Variance,这时模型在不同训练集上得到的模型波动比较大,Variance 刻画了不同训练集得到的模型的
输出与这些模型期望输出的差异。
–1.4.1 解决欠拟合的方法:
1、增加新特征,可以考虑加入其他特征组合、高次特征,来增大假设空间;
2、尝试非线性模型,比如核SVM 、决策树、DNN等模型;
3、减少正则化参数,正则化的目的是用来防止过拟合的,但是现在模型出现了欠拟合,则需要减少正则化参数;
4、Boosting ,Boosting 往往会有较小的 Bias,比如 Gradient Boosting 等。
–1.4.2 解决过拟合的方法:
1、交叉检验,通过交叉检验得到较优的模型参数;
2、早停策略。本质上是交叉验证策略,选择合适的训练次数,避免训练的网络过度拟合训练数据。
3、特征选择,减少特征数或使用较少的特征组合,对于按区间离散化的特征,增大划分的区间;
4、正则化,常用的有 L1、L2 正则。而且 L1正