以人为本的可解释机器学习议程
1. 可解释机器学习的现状
在机器学习的整个生命周期中,人处于核心地位。从定义机器学习系统要解决的任务、决定是否构建系统,到生成训练模型的数据集,再到数据的收集、清理、标注,模型和训练算法的选择,以及将训练好的模型集成到更大的系统中,都离不开人的参与。而且,人们会依据机器学习系统的预测来做决策,这些决策可能会对他人的生活产生重大影响,尤其是在刑事司法和医疗保健等高风险领域。
由于人在机器学习生命周期中的核心作用,构建可靠、值得信赖且公平的机器学习系统,要求包括开发者、用户以及受系统影响的人在内的相关利益者,至少对系统的工作原理有基本的了解。例如,机器学习模型如何使用不同的特征,系统为何做出特定的预测,训练模型的数据集是如何以及从何处收集的,这些因素如何影响系统预测在新环境中的泛化能力等。
随着“机器学习民主化”的广泛推进,能够回答这些问题变得比以往任何时候都更加紧迫。现在有很多人在推动开发现成的模型和工具,让任何人都能将机器学习融入自己的系统,无论他们是否有机器学习经验。但这也带来了风险,即构建、部署和受机器学习系统影响的人可能不熟悉处理预测中固有的不确定性,从而误解、不信任或滥用这些系统。他们可能忽视系统的局限性,对系统的偏差视而不见,或者无法诊断和调试系统故障。即使系统按预期运行,也可能产生意想不到的后果。
透明度和可解释性常被视为构建可靠机器学习系统的关键因素,但对于这两个术语的含义,目前尚无明确共识。根据欧盟委员会人工智能高级专家组的建议,透明度可分为三个部分:
- 可追溯性 :开发或部署机器学习系统的人应清晰记录其目标、定义、设计选择和假设。
-
超级会员免费看
订阅专栏 解锁全文
2731

被折叠的 条评论
为什么被折叠?



