机器学习中的不确定性处理:从理论到实践
1. 机器学习算法选择与不确定性概述
在机器学习中,每种算法都有其优缺点。为特定任务选择最优算法,通常需要遍历不同算法,并依据评估指标挑选性能最佳的那个。不过,构建负责任的人工智能解决方案时,除了评估模型性能,还需评估模型的偏差和公平性,并让终端用户了解模型预测中的不确定性。
机器学习与不确定性紧密相连。机器从本身就不确定的数据中学习,这些数据可能存在噪声、不完整或错误。因此,机器从这些数据得出的结论必然存在一定程度的不确定性。我们必须意识到所得结果中固有的不确定性,并妥善处理,才能在决策过程中充分利用机器学习。
例如,使用在 ImageNet 数据集上表现出色的 EfficientNet 进行预测时,输入一张木原木的照片,模型却以 81% 的置信度将其预测为“石墙”。
2. 人类与机器学习处理不确定性的差异
人类在面对不确定性时,若对问题有了解,会给出相应答案或表明趋势;若不了解,则会直接表示“不知道”。然而,机器学习算法无论输入如何,都会给出预测结果。例如,训练用于对花卉进行分类的算法,即便输入并非其擅长的人类识别领域,它也会给出预测。理想情况下,机器学习模型应能像人类一样,在遇到超出其领域的输入时表示“不知道”。这在使用深度学习模型进行关键决策(如贷款审批、医疗服务提供等)时尤为重要。
处理这一问题的一种方法是量化预测中的不确定性,使模型在预测时能告知我们其对预测的置信程度或可靠性。接下来,我们将探讨不同类型的不确定性及其成因。
3. 不确定性的类型
在机器学习中,常见的不确定性主要有以下几种类型:
|类型|定义|示例
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



