88、基于学习的社会协调以提高自动驾驶安全性和鲁棒性

基于学习的社会协调以提高自动驾驶安全性和鲁棒性

1. 相关工作

1.1 多智能体强化学习

多智能体强化学习(MARL)面临的一个关键问题是环境的内在非平稳性。为解决这一局限,有人提出了重要性采样的 MARL 推导方法,用于从回放缓冲区中移除过时样本。还有人通过引入伙伴策略的潜在表示,提出了另一种解决方案,实现伙伴建模和更具扩展性的 MARL。

为缓解多智能体系统中的信用分配问题,有人提出了反事实多智能体(COMA)算法,该算法采用集中式评论家和分布式智能体。也有人提出了具有完全环境可观测性和集中式控制器的深度强化学习算法,以管理所有智能体的联合行动。当前关于混合自主性的其他研究,主要通过假设自主智能体之间的交互性质,来应对合作和竞争挑战。还有人提出了一种带有集中式 q 函数的演员 - 评论家方法的变体,该算法可访问局部观测和所有智能体的行动。与之不同的是,我们考虑的是具有部分可观测性的分布式控制器,并训练利他智能体以优化社会效用。

1.2 驾驶员行为与社会协调

现有的关于驾驶员行为和社会导航的研究,主要通过对驾驶员行为进行建模,或简化并假设智能体交互的性质,来实现智能体的协调。有人提出了基于机动的数据集,并建立了用于对驾驶机动进行分类的模型。其他关于驾驶员行为建模的研究还考虑了图论、数据挖掘、驾驶员属性或博弈论等。

当前社会导航研究表明,自动驾驶汽车(AV)作为社会参与者的重要性,以及 AV 与人类驾驶车辆(HV)协调的优势。有人使用逆强化学习从示范中学习人类驾驶模式,也有人提出了用于合作逆强化学习的集中式博弈论模型。还有人提出了共享奖励函数,以实现机器人和人类的合作轨迹规划。有人提出了基于模仿学习的策略,以学习

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值