2025IJCAI-Combining MORL with Restraining Bolts to Learn Normative Behaviour

一、文章主要内容总结

该研究聚焦于强化学习(RL)智能体的规范合规问题,旨在解决现有规范约束技术的缺陷,提出了一种结合多目标强化学习(MORL)的有序规范约束螺栓(ONRBs)方法。

  1. 背景与问题:自主智能体在社会中的应用日益广泛,需遵守法律、伦理和社会规范,但现有约束技术存在不足:传统约束螺栓(RB)未针对规范设计,规范约束螺栓(NRBs)依赖试错调参、难以处理层级规范冲突,且规范更新需重新训练,无法保证最优策略最小化规范违反。
  2. 核心思路:将NRBs的学习问题重构为MORL问题,将每个规范视为独立目标,并定义目标间的优先级关系,从而提出ONRBs。该方法适配凸包值迭代(CHVI)算法,自动推导惩罚权重,支持优先级规范、规范更新,并提供规范违反最小化的形式化保证。
  3. 技术框架
    • 基于马尔可夫决策过程(MDP)扩展为多目标MDP(MOMDP),将规范违反视为负奖励目标;
    • 通过ONRBs定义规范优先级,利用CHVI算法计算部分凸包,结合线性规划求解最小惩罚权重;
    • 支持规范临时暂停或重新启用,无需重复CHVI计算,仅需调整权重向量。
  4. 案例验证:在“旅行商人”环境中验证了ONRBs的有效性,包括处理规范冲突、违责义务(CTD)、规范更新三种场景,智能体可在遵守优先级规范的同时兼顾核心目标。

二、文章创新点

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值