一、文章主要内容总结
该研究聚焦于强化学习(RL)智能体的规范合规问题,旨在解决现有规范约束技术的缺陷,提出了一种结合多目标强化学习(MORL)的有序规范约束螺栓(ONRBs)方法。
- 背景与问题:自主智能体在社会中的应用日益广泛,需遵守法律、伦理和社会规范,但现有约束技术存在不足:传统约束螺栓(RB)未针对规范设计,规范约束螺栓(NRBs)依赖试错调参、难以处理层级规范冲突,且规范更新需重新训练,无法保证最优策略最小化规范违反。
- 核心思路:将NRBs的学习问题重构为MORL问题,将每个规范视为独立目标,并定义目标间的优先级关系,从而提出ONRBs。该方法适配凸包值迭代(CHVI)算法,自动推导惩罚权重,支持优先级规范、规范更新,并提供规范违反最小化的形式化保证。
- 技术框架:
- 基于马尔可夫决策过程(MDP)扩展为多目标MDP(MOMDP),将规范违反视为负奖励目标;
- 通过ONRBs定义规范优先级,利用CHVI算法计算部分凸包,结合线性规划求解最小惩罚权重;
- 支持规范临时暂停或重新启用,无需重复CHVI计算,仅需调整权重向量。
- 案例验证:在“旅行商人”环境中验证了ONRBs的有效性,包括处理规范冲突、违责义务(CTD)、规范更新三种场景,智能体可在遵守优先级规范的同时兼顾核心目标。

订阅专栏 解锁全文
1234

被折叠的 条评论
为什么被折叠?



