9、不确定性采样：原理、算法与应用

原创于 2025-07-23 10:09:29 发布 · 36 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#不确定性采样 # 主动学习 # 机器学习

人机协同的智能未来专栏收录该内容

48 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

不确定性采样：原理、算法与应用

1. 提升模型置信度的方法

在机器学习中，为了让模型的置信度更准确，常见的做法是利用验证数据集来调整softmax的底数或温度，使概率分布尽可能接近实际准确率。例如，调整softmax的底数或温度，让置信度为0.7的预测在70%的情况下是正确的。另外，还可以使用局部回归方法（如LOESS）将概率分布映射到验证数据的实际准确率上，大多数统计包都提供了这类局部回归方法供我们尝试。

不过，如果只是为了进行主动学习而对最不确定的样本进行采样，概率分布是否准确反映准确率可能就没那么重要了。具体选择哪种方法，取决于我们的目标，了解所有可用的技术会对我们的决策有所帮助。

2. 评估主动学习的成功与否

评估主动学习的效果可以使用准确率指标，如F分数和AUC，这对于有算法背景的人来说应该很熟悉。但有时候，考虑人力成本更有意义。比如，我们可以比较两种主动学习策略，看达到某个准确率目标分别需要多少人工标注。这种比较结果可能与使用相同数量标注时的准确率比较结果有很大差异，所以计算两者都很有用。

如果不将样本放回训练数据，即不执行完整的主动学习循环，那么单纯根据不确定性采样找出的错误预测数量来评估会更合适。也就是说，当我们采样出N个最不确定的样本时，模型对这些样本的错误预测比例是多少？

关于以人类为中心的质量评估方法，如数据标注所需的时间等，可以参考相关资料，其中会详细介绍衡量模型性能的方法。

3. 不确定性采样算法概述

现在我们已经了解了模型预测置信度的来源，接下来可以思考如何解读概率分布，找出机器学习模型最不确定的地方。

不确定性采样是一种用于

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。