了解不同module误差的来源,从而来improve这个module
误差来源:bias和varians,区分误差来源:
bias:连trianing data都不能很好匹配
variance:trianing data匹配很好,但是testing data的误差很大
来源一:bias(偏差)
由各种特征组成,会影响是否能准确的找到最终function的范围,如果bais过大,则不可能找到,为欠拟合。
解决方法:
改变之前module中的特征
来源二:variance(方差)
有特征的高次组成,如果variance过大,会出现虽然在正确function周围,但是无法“聚焦”的情况,为过拟合。
解决方法:
增加训练数据或者正则化(使曲线平滑)
Model selected
每组training data都有自己的bias,如果用在testing data上会有很大误差。所以,应该讲training data分为trianing和validation,进行交叉验证。