17、机器学习模型评估与优化:从指标分析到数据集划分

机器学习模型评估与优化:从指标分析到数据集划分

1. 人类水平性能的理解

人类水平性能(ϵhlp)在机器学习中是一个重要概念,尤其在人类擅长的任务,如图像识别中,它是贝叶斯误差的一个很好的代理。但在人类不擅长的任务中,其性能可能与贝叶斯误差相差甚远。

Andrej Karpathy在2014年参与ILSVRC(ImageNet大规模视觉识别挑战赛)时,对人类水平性能进行了深入研究。该任务包含120万张图像,分为1000个类别。GoogleLeNet模型达到了6.7%的误差,Karpathy想知道人类的表现如何。

起初人们可能认为由于图像都是由人类分类的,人类水平误差应该为0%,但实际并非如此。这些图像是通过网络搜索获取,然后通过询问人们二元问题(如“这是一个钩子吗?”)进行过滤和标注的,与算法从1000个类别中为每个图像分配一个类别的方式不同。

为了准确评估,Karpathy开发了一个网络界面,左边是图像,右边是1000个类别及示例。人们在使用该界面时不断错过类别并犯错,最佳误差约为15%。Karpathy亲自进行了仔细标注,最终达到了惊人的ϵhlp = 5.1%,比当时最好的算法还要好1.7%。他还列出了GoogleLeNet比人类更容易出错的情况(如图像中有多个对象),以及人类比GoogleLeNet更容易出错的情况(如类别粒度很大,像狗有120个不同的子类)。

另一个例子是MNIST数据集,人类水平性能经广泛分析为ϵhlp = 0.2%。人类无法达到100%准确率的原因包括图像难以识别以及不同文化背景下数字书写方式的差异,例如有些国家数字7和1书写相似,容易混淆。

2. 指标分析:偏差的检测与处理
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值