17、机器学习模型评估与优化：从指标分析到数据集划分

code8

于 2025-10-29 10:14:04 发布

阅读量13

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习实战指南文章标签：机器学习模型评估偏差

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/code8/article/details/154557225

深度学习实战指南专栏收录该内容

27 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习模型评估与优化：从指标分析到数据集划分

1. 人类水平性能的理解

人类水平性能（ϵhlp）在机器学习中是一个重要概念，尤其在人类擅长的任务，如图像识别中，它是贝叶斯误差的一个很好的代理。但在人类不擅长的任务中，其性能可能与贝叶斯误差相差甚远。

Andrej Karpathy在2014年参与ILSVRC（ImageNet大规模视觉识别挑战赛）时，对人类水平性能进行了深入研究。该任务包含120万张图像，分为1000个类别。GoogleLeNet模型达到了6.7%的误差，Karpathy想知道人类的表现如何。

起初人们可能认为由于图像都是由人类分类的，人类水平误差应该为0%，但实际并非如此。这些图像是通过网络搜索获取，然后通过询问人们二元问题（如“这是一个钩子吗？”）进行过滤和标注的，与算法从1000个类别中为每个图像分配一个类别的方式不同。

为了准确评估，Karpathy开发了一个网络界面，左边是图像，右边是1000个类别及示例。人们在使用该界面时不断错过类别并犯错，最佳误差约为15%。Karpathy亲自进行了仔细标注，最终达到了惊人的ϵhlp = 5.1%，比当时最好的算法还要好1.7%。他还列出了GoogleLeNet比人类更容易出错的情况（如图像中有多个对象），以及人类比GoogleLeNet更容易出错的情况（如类别粒度很大，像狗有120个不同的子类）。

另一个例子是MNIST数据集，人类水平性能经广泛分析为ϵhlp = 0.2%。人类无法达到100%准确率的原因包括图像难以识别以及不同文化背景下数字书写方式的差异，例如有些国家数字7和1书写相似，容易混淆。

2. 指标分析：偏差的检测与处理

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。