首发于知乎专栏:https://zhuanlan.zhihu.com/p/38245449
公众号:follow_bobo
-------------------------------------------------------------------------------------
想要代码的小伙伴请去公众号:follow_bobo ,下载 回复“修正”,即可获得下载地址。
或者在评论下面留下邮箱,我单独发给你
麻烦大家给我点个赞,就是那种让我看起来,写的还不错的样子!
拜托了!!o(´^`)o
很久没更新了,很多小伙伴还以为我弃坑了
如果你们再不点赞的话,我可就真的弃坑啦
1. 1 你说的准确率,不是真正的准确率
很多时候,我们在准备一个CNN模型时,优先考虑是提高准确率(Accuracy)
我们会花费大量的时间去研究如何提高模型的准确率
毕竟抛开准确率,谈其他的东西都耍流氓
可是如果准确率不能保证永远100%
那么准确率的可靠性(Reliability)就值得商榷了
比如我们经常会看到如下标题:
是不是感觉很吊很厉害
抱着崇拜的心情,我试了试搜狗的语音输入,下面是结果:
一个人的牺牲是不信很多人的牺牲就是统计数字啊,其实并没有什么太大的意义他们的语音识别,我用我说实话有些还不错,然后这段话就是我用语音识别打的。问题是这段话你发现一定有很多错误啦。刚好我要花很多时间就跟那些错误真麻烦。
由上你应该也发现了,统计意义上的数字和我们实际生活中所用到的结果还是有一定差距的
1.1.1 准确率怎么算出来的
A,B 两类的特征分布
上图是A,B 两类的特征分布,假设A紫色点,B是灰色点
这时候一个测试数据的特征分布有一点点靠近A
或者说
这个测试数据集的特征分布有60% 的可能性像A类特征分布
40%可能性像B类特征分布
模型便预测它为A,如果实际标签(Ground Truth)是A, 我们就认为预测正确
依靠这种方法,假如100个数据测试集,准确率94%,说明我们预测(cai)对了94个
94%????&#x