Prioritized Experience-based Reinforcement Learning with Human Guidance for Autonomous Driving

原创已于 2024-09-11 10:28:10 修改 · 984 阅读

·

19

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #人工智能 #机器学习

于 2024-09-11 10:26:01 首次发布

强化学习同时被 3 个专栏收录

101 篇文章

订阅专栏

25 篇文章

订阅专栏

1 篇文章

订阅专栏

TNNLS 2022
paper
code
Human-guided off-policy RL 应用在自动驾驶，其中RL采用的TD3。方法主要由三部分构成：

利用人类专家演示数据，在策略优化过程中通过BC正则的形式，实现策略优化的引导
$\begin{aligned} \mathcal{L}^{\pi} (\phi)& =\frac{1}{N_{1}}\sum_{i}^{N_{1}}[-Q(\mathbf{s}_{i},\pi(\cdot|\mathbf{s}_{i};\phi);\theta)] +\frac{1}{N_{2}}\sum_{j}^{N_{2}}[\omega\cdot\|\mathbf{a}_{j}^{H}-\pi(\cdot|\mathbf{s}_{j};\phi)\|_{2}^{2}],\\ \mathcal{L}^{Q}(\theta)= &\frac{1}{N_{1}}\sum_{i}^{N_{1}}\|r_{i}+\gamma Q(\mathbf{s}_{i+1},\pi(\cdot|\mathbf{s}_{i+1});\theta)-Q(\mathbf{s}_{i},\mathbf{a}_{i}^{RL};\theta)\|_{2}^{2} \\ &+\frac1{N_2}\sum_j^{N_2}\|r_j+\gamma Q(\mathbf{s}_{j+1},\pi(\cdot|\mathbf{s}_{j+1});\theta)-Q(\mathbf{s}_j,\mathbf{a}_j^H;\theta)\|_2^2. \end{aligned}$
在原有的PER的采样模式下，额外添加一项基于Q值的残差项，将人类演示引入,使得那些TD-errro大且远离演示的样本越容易被采样优化：
$\mathbf{p}_{i}\triangleq|\delta_{i}^{TD}|+\varepsilon+\exp\left[Q(\mathbf{s}_{i},\mathbf{a}_{i}^{H};\theta)-Q(\mathbf{s}_{i},\pi(\cdot|\mathbf{s}_{i});\theta)\right], (13$
Buffer中样本分布表示为：
$\mathbf{p}_{\mathcal{I}^{\prime}}(i)=\frac{\mathbf{p}_{i}^{\alpha}}{\sum_{k}\mathbf{p}_{k}^{\alpha}}.$
为避免优先机制导致Q值估计偏差，对样本采用如下的采样权重：
$w_{IS}(i)=\left[\mathbf{p}_{\mathcal{I'}}(i)\right]^{-\beta}.$
人类干预下的reward-shaping，只有在第一次干预下才会进行，若连续干预，则除去第一次均不进行shaping.
$r_t^{\mathrm{shape}}=r_t+r_{\mathrm{pen}}[(\Delta_t=\mathbf{I}^{\mathrm{dim}(\mathcal{A})}\wedge(\Delta_{t-1}=\mathbf{0}^{\mathrm{dim}(\mathcal{A})})]$

在这里插入图片描述

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。