公共部门生产性人工智能系统评估的挑战与设计原则
在当今时代,政府组织和企业越来越多地使用人工智能(AI)系统来自动化和支持不同领域的各种任务。然而,目前的实证研究大多集中在AI系统的开发、采用和实施阶段,对维护阶段的关注相对较少。维护阶段对于AI系统的生命周期至关重要,因为它不仅关系到能否收回初始成本,还关系到如何防止AI系统可能造成的危害。
1. AI系统维护阶段评估的重要性
AI系统维护阶段的一个关键活动是评估。评估是指根据性能期望来评估系统性能的控制论过程。在AI系统的背景下,评估涉及对AI系统的性能特征(如准确性、公平性和透明度)进行评估,以满足利益相关者的期望。
评估不仅是发现开发阶段未发现的性能问题的机会,还对于防止性能随时间下降至关重要。性能下降可能是由于环境变化导致生产数据偏离AI系统的训练数据,或者是由于行为、标准和法律的变化导致AI系统执行旧的和不正确的法律版本。
2. 现有研究的不足
尽管最近对AI系统的兴趣激增,但相对较少的研究关注维护期间AI系统的性能评估。社会技术AI研究主要关注高层管理参与、集体学习、授权和增强、预生产风险评估和缓解以及意外结果等问题,而没有明确关注维护期间的评估。技术研究虽然探索了评估AI系统的策略,但没有关注组织在实施这些策略时遇到的实际问题。
不过,现有研究也提供了一些重要的见解,即有效使用AI需要整合领域知识和AI知识。例如,预生产风险评估的设计强调了多专家评估的重要性,涉及AI和领域专家。民族志研究描述了机器学习(ML)专业知识和领域专业知识在AI支持的招聘中的相互作用。
3. 研究问题与方法
本研究旨在解决组织如何确保对其生产中的AI系统进行有效持续评估的知识差距。具体研究问题包括:
- 规划和执行生产性AI系统评估的挑战是什么?
- 解决这些挑战的AI评估基础设施的设计原则是什么?
为了解决这些问题,我们采用了行动设计研究(ADR)方法,在丹麦商业管理局(DBA)进行了研究。ADR通过结合行动和设计研究来解决实际问题,创造可推广的知识。关键成果包括一个或多个制品和设计原则。在我们的案例中,制品是一种评估生产性AI系统的方法,我们称之为评估计划。
ADR包括四个阶段:
1.
问题制定
:通过参与实际问题并确定项目范围来启动。该阶段基于两个原则:实践启发的研究将非独特的实际问题转化为知识创造的机会;理论嵌入的制品强调制品应基于文献和理论。
2.
构建、干预和评估(BIE)
:描述了一个迭代过程,包括构建制品、干预组织和持续评估问题和制品,最终实现制品的设计。该阶段依赖于三个原则:互惠塑造、相互影响的角色和真实并发评估。
3.
反思和学习
:与前两个阶段并行,但侧重于通过对问题范围、嵌入的理论以及新兴的整体制品及其评估的反思来获得见解。该阶段依赖于引导出现原则。
4.
学习的形式化
:涉及从一个问题实例到适用于一类问题的通用解决方案的概念转变,以满足广义结果原则。
4. 实证工作与设计制品
第一作者自2017年9月以来一直在与DBA合作,最初是作为外部顾问,从2018年8月起作为合作博士研究员。他在DBA的机器学习实验室度过了大约一半的时间,参与日常工作活动,并记录了现场日记。
设计制品评估计划是负责任AI使用的更广泛框架X - RAI的一部分。X - RAI的一个元素是人工智能风险评估(AIRA)工具,它支持生产前的AI风险评估,为生产后的评估和AI系统的再训练奠定了基础。评估计划继承了AIRA中嵌入的理论,包括多专家评估和结构化直觉等原则。
评估计划是一个问卷,在提供一定结构的同时,也为专家判断留出了空间。以下是评估计划的部分问题:
|问题编号|问题|
| ---- | ---- |
|Q1|谁应该参与评估(例如,应用程序经理、相关业务部门、ML实验室)?|
|Q2|谁拥有模型/解决方案(通常是业务部门)?|
|Q3|第一次评估会议应该何时举行?|
|Q4|预期的会议频率是多少(应该多久开会评估一次)?|
|Q5|AI系统的当前阈值设置是什么?|
|Q6|评估的依据是什么(例如,日志数据、带注释的评估数据,即人类分类与模型进行比较的数据)?|
|Q7|数据是否不平衡到在为评估和再训练制作数据时必须考虑的程度?如果是,如何处理?|
|Q8|需要哪些资源(例如,谁可以制作评估数据,评估数据是内部提供还是外部提供,需要评估多少,时间/金钱成本是多少)?|
|Q9|评估预计需要哪些资源?|
|Q10|模型对外部用户是可见还是不可见?|
|Q11|模型是否从其他模型接收输入?如果是,是哪些模型?|
|Q12|成功和错误标准是什么(例如,模型何时表现良好/不佳,百分比、商业价值、劳动力浪费情况如何)?|
|Q13|是否有任何未来的立法会影响模型的性能(例如,新要求、废除要求)?|
|Q14|是否有其他未来因素会影响模型的性能(例如,偏差、情况、数据、标准)?|
|Q15|模型应该何时进行再训练?|
|Q16|模型应该何时静音或停用?|
5. BIE迭代
评估计划的设计工作始于2019年2月,与公司注册部门的利益相关者、产品所有者和机器学习实验室密切合作。评估计划旨在与评估框架和再训练框架一起,构成一个三框架过程。后来,该过程扩展到包括人工智能风险评估(AIRA)框架,并进一步发展为X - RAI方法。
在DBA的16个AI系统上实施了评估计划,并进行了三次迭代评估:
1.
迭代1:可用性和内容
:评估计划以Word格式引入组织工作实践,评估重点是问题的可理解性和对资源需求的估计适用性。评估导致了制品的一些小变化,之后制品转换为YAML格式,以便于集成到IT基础设施中。
2.
迭代2:行为影响
:评估计划的第二次迭代侧重于评估其是否实现了预期的行为影响,即确保和规范DBA中AI系统评估的影响。分析发现,虽然有16个AI系统编制了评估计划,但只有三个系统填写了评估框架,其中一个只部分填写。由于COVID - 19大流行导致的社会封锁、在家工作情况以及对开发COVID - 19补偿系统的高度关注,增加了维护不同AI系统状态概述的难度。因此,我们决定进行正式访谈以验证先前评估的结果,发现被忽视的实践,并深入了解原因。
3.
迭代3:挑战
:第三次评估迭代侧重于发现被忽视的评估实践,并深入了解影响评估的情况。我们在2022年1月和2月对评估计划中指定的利益相关者进行了七次半结构化访谈。访谈围绕介绍问题和背景、AI系统的目的和使用、质量保证、评估、问责制、风险、挑战和信任等主题进行。访谈记录被转录并在Nvivo中进行编码,我们采用归纳过程将较低级别的挑战和设计原则汇总为几个较高级别的类别。
6. 评估的挑战
通过数据分析,我们确定了以下五个挑战:
|挑战编号|挑战内容|
| ---- | ---- |
|#1|选择和准备评估数据|
|#2|估计资源需求和可用性|
|#3|维护概述|
|#4|确定评估优先级|
|#5|确定评估时间|
- 选择和准备评估数据 :选择和准备评估生产性AI系统所需的数据存在挑战,主要包括繁琐的注释工作和可用数据中的偏差。注释数据被认为是一项繁琐且资源密集的任务,特别是在寻找少数类时。此外,从其他公共部门组织获得的数据可能存在偏差,因为员工可能会关注那些最有可能提交错误报告的公司。
- 估计资源需求和可用性 :由于AI的使用从根本上改变了业务流程和优先级,因此很难预测评估所需的资源和可用资源。例如,引入AI后,团队的工作量可能会增加,导致难以估计评估所需的资源。
- 维护概述 :随着生产性AI系统数量的增加和系统的发展,评估计划越来越成为显示评估意图的历史文件,而不是监测评估的工具。维护概述变得困难的原因包括AI系统数量的增加、COVID - 19危机导致的管理注意力转移、AI系统的暂停或退役以及人员变动。
- 确定评估优先级 :COVID - 19大流行和新数字平台的开发等一次性事件占用了大量资源,使得DBA难以分配资源来评估现有AI系统。此外,在组织实际情况中,动员足够的资源进行评估也存在挑战。
- 确定评估时间 :何时进行评估存在很大的不确定性。最初的经验法则是在上线后14天进行第一次评估,此后每三个月进行一次评估。但对于一些AI系统来说,14天可能太早,因为可能存在一些问题和小错误需要在模型投入生产时进行纠正,而且业务部门也需要时间来查看案例。此外,后续评估的时间也难以确定,因为模型的性能会随着时间自动下降,而欺诈模式的变化也难以预测。
mermaid图展示评估挑战的关系:
graph LR
A[选择和准备评估数据] --> B[估计资源需求和可用性]
B --> C[维护概述]
C --> D[确定评估优先级]
D --> E[确定评估时间]
这些挑战相互关联,共同影响着生产性AI系统评估的有效性和效率。解决这些挑战需要综合考虑多个因素,并采取相应的设计原则。
公共部门生产性人工智能系统评估的挑战与设计原则
7. 设计原则
基于上述挑战,我们提出了以下五个设计原则,以构建有效的评估计划和基础设施:
|原则编号|原则内容|目标|机制|原理|
| ---- | ---- | ---- | ---- | ---- |
|#1|实施自动停止功能|确保评估计划得到遵守|确保AI系统在未按评估计划进行人工评估时无法投入生产|AI系统作为(半)自主系统,可能会导致不良后果。类似于电锯或割草机等危险机器的紧急停止措施,可以帮助防止一些此类后果|
|#2|使评估时间与现实世界的变化模式保持一致|确保AI系统在需要时保持最新状态|根据预期的现实世界变化,考虑基于事件和基于频率的计时策略|根据表征理论,任何信息系统(包括基于AI的系统)的基本目的是忠实地代表某些现实世界现象。因此,每当AI系统所代表的现实世界现象发生变化时,就需要对其进行重新评估和必要的再训练|
|#3|使评估成为有意义的任务|确保评估人员有动力|设计注释任务,使其成为实现自主性、能力和关联性的机会|根据自我决定理论,满足人们对自主性、能力和关联性的基本心理需求可以提高他们对特定任务的内在动力|
|#4|利用AI系统评估、人员培训、人员工作和AI系统培训之间的协同作用|降低成本,使评估工作不那么繁琐|在工作、评估和培训活动之间循环利用数据|根据表征理论,信息系统代表现实世界的工作系统。因此,训练和评估基于AI的决策系统(一种信息系统)的任务与训练和评估人类决策系统的任务有重要的相似之处,这表明可以利用两者之间的协同作用,例如,将人员培训的成果用于AI培训或评估|
|#5|数字化评估|确保遵守评估计划并维护概述|实施一个数字平台,自动收集有关评估活动和结果的数据|根据控制理论,关于被控制者行为的准确信息使被控制者更有可能参与期望的行为。数字化评估基础设施有助于使评估活动的信息透明化,从而鼓励评估人员遵守评估计划|
下面详细介绍这些设计原则:
-
实施自动停止功能
:为确保评估得到足够的重视,特别是在COVID - 19大流行期间,DBA选择在其智能控制平台中实施自动紧急停止功能。该功能类似于自动火车停止系统,如果AI系统未按评估计划进行评估,将自动停止运行。
-
使评估时间与现实世界的变化模式保持一致
:评估时间对于确保AI系统保持标准和在需要时正常运行至关重要。不同的AI系统需要不同的评估时间逻辑,包括基于频率、基于事件、季节性和自主驱动的评估。例如,欺诈检测系统需要根据欺诈模式的变化进行评估,而工业分类代码系统则需要在标准变化之前进行评估。在确定评估时间时,还需要考虑资源可用性和AI系统之间的相互关联性。
-
使评估成为有意义的任务
:选择和准备评估数据通常被认为是耗时且繁琐的任务,但可以通过一些策略使其变得有意义。根据自我决定理论,可以将评估视为发展能力、实现自主性和建立关联性的机会。例如,强调评估人员可以获得AI系统性能的第一手经验,或者让评估人员参与AI系统的教育和管理。此外,还可以通过沟通评估的好处和奖励来提高评估人员的动力。
-
利用协同作用
:评估与人员培训和日常工作之间存在潜在的协同作用。例如,评估活动可以为人员培训提供重要的输入,而人员培训也可以为评估提供经验和知识。此外,评估数据可以被存储和声明,以便在AI系统再训练时进行循环利用。将评估集成到日常工作流程中也是一种有效的策略。
-
数字化评估
:为了解决维护概述和确定评估优先级的困难,DBA引入了智能控制平台,这是一个用于管理AI系统评估的数字化基础设施。根据控制理论,数字化评估基础设施可以使评估活动的信息透明化,从而鼓励评估人员遵守评估计划。该平台还可以帮助更轻松地进行评估和再训练,提高模型的适应性。
mermaid图展示设计原则与挑战的对应关系:
graph LR
A[实施自动停止功能] --> D[确定评估优先级]
B[使评估时间与现实世界的变化模式保持一致] --> E[确定评估时间]
C[使评估成为有意义的任务] --> A1[选择和准备评估数据]
D1[利用协同作用] --> A1
D1 --> B1[估计资源需求和可用性]
E1[数字化评估] --> C1[维护概述]
E1 --> D
8. 讨论与启示
这些挑战和设计原则为组织评估生产性AI系统提供了重要的见解。选择和准备评估数据的挑战与先前研究中强调的准备标记数据的重要性和困难相关,但我们的研究进一步揭示了标记工作的繁琐性质,并提出了相应的解决方案。估计资源需求和可用性的挑战反映了系统实施后工作系统的变化,以及确保领域专家可用性的困难。维护概述和确定评估优先级的挑战在现有AI研究中较少被关注,但可以通过组织理论进行解释。确定评估时间的挑战则为未来的研究提供了一个新的方向,表征理论可以作为研究的理论基础。
对于组织来说,这些发现具有实际的指导意义。组织在评估生产性AI系统时,可以考虑实施自动停止功能、使评估时间与现实世界的变化模式保持一致、使评估成为有意义的任务、利用协同作用和数字化评估等策略。这些策略可以帮助组织更好地应对评估挑战,确保AI系统的有效运行。
9. 局限性与未来研究方向
尽管本研究提出了有价值的挑战和设计原则,但仍存在一些局限性。实施完全体现这些设计原则的制品仍需未来的工作,可能会产生意想不到的效果,需要进一步调整制品。此外,本研究主要基于X - RAI框架进行评估,未涉及DBA的质量保证机制和政府行为的评估。
未来的研究可以从多个方向展开。例如,研究人员可以探索个人如何应对评估工作的繁琐性质,以及组织如何进一步解决这些挑战。对于组织结构和控制感兴趣的研究人员可以探索有助于确保充分评估的控制机制组合。对动态和形式系统感兴趣的研究人员可以扩展评估时间策略的研究,检查这些策略的有效性和效率。设计研究人员可以关注集成组织AI系统和有效组织评估所需数据的基础设施。此外,还可以进一步研究如何进行和优化生产后性能评估,以确保业务目标的持续实现,以及如何衡量AI系统的业务价值和监测业务目标。
总之,评估生产性AI系统是一个复杂但重要的问题,需要组织和研究人员共同努力,不断探索和改进评估策略和方法。
超级会员免费看
1053

被折叠的 条评论
为什么被折叠?



