文献分享 ——《使用 SPDX 3.0 实现人工智能物料清单(AI BOM)》总结报告

原文地址:Implementing AI Bill of Materials (AI BOM) with SPDX 3.0 Implementing AI Bill
of Materials (AI BOM)  with SPDX 3.0

1. 研究背景

1.1 人工智能应用现状与挑战

人工智能应用在推动创新、促进合作、确保透明度和普及技术方面至关重要,但也面临诸多挑战。这些应用常整合众多第三方组件,可能存在安全漏洞、数据问题或不明确的许可条款。除传统软件风险外,AI 和数据密集型应用还面临数据安全和 AI 安全威胁,监管义务也更为复杂,且开放许可证的使用增加了管理风险的难度。

1.2 AI BOM 与 SPDX 3.0 的重要性

AI BOM 对于管理复杂系统和推动 AI 的广泛应用愈发关键,它能系统地识别和跟踪 AI 系统开发中的决策与依赖关系,有助于管理风险。SPDX 3.0 旨在提供系统组件和文档的机器可读清单,其 AI BOM 通过纳入相关 SPDX 配置文件,可全面记录 AI 应用开发、测试和部署中的各种信息,增强了 AI 系统的可靠性、可追溯性和透明度。

2. 研究目的

本研究旨在建立一个全面且实用的 AI BOM 框架,通过定义清晰的规范和标准,确保 AI 系统的各个组件及相关信息得到准确记录和有效管理,以应对 AI 应用面临的诸多挑战,促进 AI 技术的安全、可靠和可持续发展。

3. 研究方法

3.1 成立工作组

2021 年成立了包含行业和学术界专家的工作组,成员背景多样,包括 AI 和软件工程领域的研究人员、教授、首席技术官、产品经理、AI 开发者、律师和许可专家等。工作组每周召开一小时会议,至少六名成员参与,致力于制定一个既能提供透明度,又能增强 AI 系统可追溯性、问责制、来源、谱系和自动化的标准。

3.2 确定 AI BOM 的关键字段

工作组初期从专业知识和多元背景出发,提出 AI BOM 标准中应捕获的初始字段集。随后分析模型卡、数据表和情况说明书等现有工具,以完善字段列表,平衡详细信息捕获与实际采用的便利性。同时,避免在 SPDX 其他配置文件已能表示相关信息时重复添加字段,经过迭代审查和民主讨论,最终从 103 个提议字段中选定 36 个字段,包括 AI 配置文件中的 20 个字段(5 个必填)和数据集配置文件中的 18 个字段(6 个必填)。

4. 研究成果

4.1 AI 和数据集配置文件的开发

  • 分离的意义:在 SPDX 中,AI 和数据集配置文件分开,以明确 AI 模型创建的来源和训练方法。AI 配置文件涵盖与人工智能功能直接相关的软件组件,数据集配置文件则处理数据处理、存储或管理相关组件。这种分离有助于更好地理解软件的数据相关方面及其对隐私、合规性和安全性的潜在影响,为利益相关者提供更精细和全面的软件组成视图,便于评估和管理相关风险、义务和依赖关系。
  • 字段的选择与定义:在开发过程中,工作组尽量重用其他 SPDX 配置文件(如软件和核心配置文件)中的现有字段,避免冗余,确保与标准的紧密集成,以加快软件工程从业者的采用速度。最终确定的字段涵盖了模型和数据集的各个关键方面,如许可详细信息、模型和数据集的基本信息、架构、训练数据和方法、性能指标、偏差和限制、负责任的 AI 考虑因素以及环境影响等。

4.2 AI BOM 框架的定义

  • 配置文件与字段要求:AI BOM 框架包含多个配置文件,其中 AI 和数据集配置文件是核心。AI 配置文件中,AIPackage 有 10 个必填字段,如构建时间(buildTime)、下载位置(downloadLocation)、名称(name)等,用于准确识别和描述 AI 模型相关信息;还有 14 个可选字段,用于提供更详细的模型特性、训练和应用信息。数据集配置文件中,DatasetPackage 有 9 个必填字段,如构建时间、数据集类型(datasetType)等,以及 11 个可选字段,用于描述数据集的收集、处理和使用等相关信息。
  • 关系类型的使用:关键关系类型包括 contains、hasConcludedLicense、hasDeclaredLicense、testedOn 和 trainedOn 等,用于构建 AI 模型、数据集和其他元素之间的语义联系,明确各组件之间的关系。

4.3 与国际标准和监管框架的合规性

  • 欧盟人工智能法案(EU AI Act):SPDX 3.0 字段能够映射和记录 AI 系统,满足 EU AI Act 的注册要求,确保高风险 AI 系统在市场投放或实际测试前符合相关规定,促进监管合规,保障 AI 技术的安全和伦理发展。
  • 美国食品药品监督管理局(FDA)和欧洲药品管理局(EMA)要求:与 AI 和数据集配置文件一起,SPDX 3.0 中的源和构建配置文件可有效识别医疗设备的上市前提交要求,运行时配置文件有助于持续监测和维护,安全配置文件可管理漏洞和实施更新,确保医疗设备的网络安全和风险管理符合相关机构要求。
  • IEEE 伦理技术标准(P70xx 系列):SPDX 3.0 提供了全面框架来记录 IEEE P70xx 系列标准所需信息,确保 AI 系统符合伦理要求,包括记录伦理价值观、影响评估、透明度和问责机制等,有助于保证 AI 系统的完整性和可靠性。

4.4 实际案例展示

  • 手写文本识别应用(SimpleHTR):SimpleHTR 是一个基于 TensorFlow 开发的手写文本识别系统,其 AI BOM 捕获了模型、训练数据集、支持包及其依赖关系和许可证信息,展示了如何在实际项目中应用 AI BOM 框架记录相关信息,为类似项目提供了参考范例。
  • CO2 数据集:以 Our World in Data 的 “CO2 和温室气体排放数据” 数据集为例,展示了数据集 BOM 的构建,包括文件定义、关系链接和数据集包属性设置,体现了如何使用 SPDX 记录数据集的特征、许可证和数据来源等信息,为数据集管理提供了实践指导。

5. 研究结论

5.1 研究成果总结

本研究成功开发了 SPDX AI 和数据集配置文件,定义了 AI BOM 框架,确定了关键元素和字段要求,并通过实际案例展示了其应用。在与国际标准和监管框架的合规性方面取得进展,确保了 AI BOM 在不同领域的有效性和适应性,为 AI 系统的管理和发展提供了有力支持。

5.2 未来研究方向

未来,SPDX 将进一步发展,扩展其范围以涵盖更多组件,如引入硬件、服务、测试、行为分析和操作等配置文件,加强软件、硬件、模型和服务之间的联系,实现更强大的系统安全分析和行为理解。同时,继续与 ISO 和 IEEE 标准对齐,验证全球政府法案的合规性,提高 AI 系统的可靠性和安全性,推动风险管理实践的发展。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

笑呵呵的大文子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值