机器学习模型评估与优化:从指标分析到数据集划分
1. 人类水平性能的理解
人类水平性能(ϵhlp)在机器学习中是一个重要概念,尤其在人类擅长的任务,如图像识别中,它是贝叶斯误差的一个很好的代理。但在人类不擅长的任务中,其性能可能与贝叶斯误差相差甚远。
Andrej Karpathy在2014年参与ILSVRC(ImageNet大规模视觉识别挑战赛)时,对人类水平性能进行了深入研究。该任务包含120万张图像,分为1000个类别。GoogleLeNet模型达到了6.7%的误差,Karpathy想知道人类的表现如何。
起初人们可能认为由于图像都是由人类分类的,人类水平误差应该为0%,但实际并非如此。这些图像是通过网络搜索获取,然后通过询问人们二元问题(如“这是一个钩子吗?”)进行过滤和标注的,与算法从1000个类别中为每个图像分配一个类别的方式不同。
为了准确评估,Karpathy开发了一个网络界面,左边是图像,右边是1000个类别及示例。人们在使用该界面时不断错过类别并犯错,最佳误差约为15%。Karpathy亲自进行了仔细标注,最终达到了惊人的ϵhlp = 5.1%,比当时最好的算法还要好1.7%。他还列出了GoogleLeNet比人类更容易出错的情况(如图像中有多个对象),以及人类比GoogleLeNet更容易出错的情况(如类别粒度很大,像狗有120个不同的子类)。
另一个例子是MNIST数据集,人类水平性能经广泛分析为ϵhlp = 0.2%。人类无法达到100%准确率的原因包括图像难以识别以及不同文化背景下数字书写方式的差异,例如有些国家数字7和1书写相似,容易混淆。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



