强化学习的部署、安全与伦理考量
1. 传统部署技术
传统的“多智能体部署”技术有助于减少面向用户的问题。通过将策略的每个新实例(由策略参数定义)视为单独的部署,可以有效控制问题的出现范围。同时,自动化A/B测试能够确保新参数不会对用户产生不利影响。
2. 安全强化学习(Safe RL)
安全强化学习的目标是在预定义的安全约束条件下学习一种能最大化奖励的策略。这些约束条件在训练和操作过程中可能存在,也可能不存在。
2.1 现有解决方法
- 约束优化算法 :如果问题的安全问题可以自然地描述为约束条件,那么可以使用执行约束优化的算法,如TRPO和PPO。可以调整优化函数以纳入问题的约束条件。例如,在训练算法部署Web服务副本以满足需求时,不应超过基础设施的可用容量,可将此信息作为约束条件提供给优化函数。
- 奖励塑形 :可以对奖励进行塑形,以惩罚某些行为。例如,机械臂在完全伸展时会承受很大压力,为延长机器人的使用寿命,应避免可能导致金属疲劳的伸展。可以在奖励函数中加入惩罚伸展的元素。
然而,这两种方法是硬编码的,在更复杂的问题中可能不是最优的。更好的方法是使用模仿或逆强化学习从专家那里学习最优的受限行动。
2.2 安全保障问题
上述方法不能保证安全性,尤其是在学习过程中。只有经过足够的训练后,才能大致保证安全。从根本上说,这些方法是通过执行不安全的行为来学习如何安全行动的。
超级会员免费看
订阅专栏 解锁全文
303

被折叠的 条评论
为什么被折叠?



