9、不确定性采样：原理、算法与实现

不确定性采样：核心算法与应用

火锅底料102

于 2025-08-04 13:19:47 发布

阅读量27

点赞数

CC 4.0 BY-SA版权

分类专栏：人机协同：数据驱动AI未来文章标签：不确定性采样主动学习置信度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/spark7igniter/article/details/151592007

人机协同：数据驱动AI未来专栏收录该内容

48 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

不确定性采样：原理、算法与实现

1. 获取更准确置信度的方法

在机器学习中，为了让模型的置信度更准确，常见的做法是利用验证数据集调整softmax的底数（温度），使概率分布尽可能与实际准确率相匹配。例如，调整softmax的底数，让置信度为0.7的预测在70%的情况下是正确的。

另一种更强大的方法是使用局部回归方法（如LOESS），将概率分布映射到验证数据的实际准确率上。大多数统计软件包都提供了一种或多种局部回归方法供我们尝试。

不过，如果只是为了进行主动学习而对最不确定的样本进行采样，概率分布是否准确反映准确率可能就不那么重要了。具体的选择取决于我们的目标，了解所有可用的技术会对我们有所帮助。

2. 评估主动学习的成功

评估主动学习的成功可以使用像F分数和AUC这样的准确率指标，这对于有算法背景的人来说应该很熟悉。

但有时候，考虑人力成本更有意义。例如，我们可以比较两种主动学习策略，看达到某个准确率目标分别需要多少人工标注。这种比较的结果可能与使用相同数量的标注来比较准确率有很大差异，所以计算这两种情况都很有用。

如果不将样本放回训练数据，即不实现完整的主动学习循环，那么单纯根据不确定性采样找出的错误预测数量来评估会更合适。也就是说，当我们采样出N个最不确定的样本时，模型对这些样本的错误预测比例是多少？

关于以人类为中心的质量评估方法，如标注数据所需的时间等，这里暂不展开，后续会有更详细的模型性能评估方法介绍。

3. 不确定性采样算法概述

在了解了模型预测置信度的来源后，我们可以思考如何解读概率分布，找出机器学习模型最不确定的地方。

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。