17、机器学习中的性能评估与数据集处理

机器学习中的性能评估与数据集处理

1. 人类水平性能(Human - Level Performance)

1.1 人类水平性能的概念及获取标签方式

在机器学习任务中,人类水平性能($\epsilon_{hlp}$)是一个重要概念。通常我们认为人类在某些任务上表现出色,比如图像识别。获取标签的方式不局限于让人类执行与算法相同的任务。例如在癌症检测中,或者在图像分类时,你可以通过其他方式获取标签,而不单纯依赖人类对图像进行分类标注。

1.2 Andrej Karpathy 的实验故事

Andrej Karpathy 在 2014 年参与了 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)。该任务有 120 万张图像(训练集),分为 1000 个类别。GoogleLeNet 模型达到了 6.7% 的错误率。Karpathy 想了解人类在这个任务中的表现。

起初人们可能认为图像是由人类分类的,$\epsilon_{hlp}$ 应该为 0%,但实际并非如此。这些图像是通过网络搜索获取,然后以二进制问题(如“这是一个钩子吗?”)的方式进行筛选和标注。人们并非像算法那样从 1000 个类别中为每个图像分配一个类别。

Karpathy 开发了一个网络界面,左边是图像,右边是 1000 个类别及示例。人们在使用这个界面时经常错过类别并犯错,最好的错误率约为 15%。后来他自己进行了仔细的标注,有时一张图像需要 20 分钟,最终达到了惊人的 $\epsilon_{hlp}$ = 5.1%,比当时最好的算法还要好 1.7%。他还列出了 GoogLeNet 比人类更容易

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值