-
误差分析
(1)构建一个学习算法的推荐方法
从一个简单的能快速实现的算法开始,实现该算法并用交叉验证集数据测试这个算法
绘制学习曲线,决定是增加更多数据,或者添加更多特征,还是其他选择
进行误差分析:人工检查交叉验证集中我们算法中产生预测误差的实例,看看这些实例是否有某种系统化的趋势
(2)误差分析作用
误差分析并不一定能判断应该采取怎样的行动。但通过尝试不同的模型并比较后,能用数值来判断哪一个模型更好更有效,通常是看交叉验证集的误差。 -
类偏斜的误差度量
对于类偏斜的问题,误差的大小是不能视为评判算法效果的依据的。常采用查准率(Precision)和召回率(Recall)来判断。
查准率=TP/(TP+FP)
召回率=TP/(TP+FN)
其中:TP–真阳性(True Positive);TN-- 真阴性(True Negative,TN);FP-- 假阳性(False Positive);FN-- 假阴性(False Negative) -
查准率和召回率之间的权衡
对某个特定的问题高查准率对应低的召回率,低的查准率对应高的召回率。理想情况是查准率和召回率都越高越好,这使得权衡两者之间的取值。
一般建议:根据实际情况具体的分析。
常用的判断方法是:计算F1值:F1 Score = 2*PR/(P+R),其中P是查准率,R是召回率 -
机器学习的数据
通过大量的数据并在特定类型的学习算法中进行训练,可以有效的获得良好性能的学习算法。这些条件是:
(1)使用训练集样本m很大,特征n也很大,m》n,那么这些算法就不太可能会过度拟合。也就是说训练误差有希望接近测试误差。
(2)为了有一个高性能的学习算法,但又不能有高偏差和高方差。这种偏差问题,通过确保有一个具有很多参数的学习算法来解决,这就需要用非常大的训练集来保证。
关键的假设:特征值有足够的信息量,且有一类很好的函数,这是为什么能保证低误差的关键所在
————————————————
版权声明:本文为优快云博主「翔燕」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.youkuaiyun.com/qq_36217665/article/details/99293325