IEEE TAI 2024
paper
加权TD3_BC
Method
离线阶段,算法基于TD3_BC,同时加上基于Q函数的权重函数,一定程度上避免了过估计
J o f f l i n e ( θ ) = E ( s , a ) ∼ B [ ζ Q ϕ ( s , π θ ( s ) ) ] − ∥ π θ ( s ) − a ∥ 2 \begin{aligned}J_{\mathrm{offline}}(\boldsymbol{\theta})&=\mathbb{E}_{(\boldsymbol{s},\boldsymbol{a})\sim\mathcal{B}}\left[\zeta Q_{\boldsymbol{\phi}}(\boldsymbol{s},\pi_{\boldsymbol{\theta}}(\boldsymbol{s}))\right]-\left\|\pi_{\boldsymbol{\theta}}(\boldsymbol{s})-\boldsymbol{a}\right\|^{2}\end{aligned} Joffline(θ)=E(s,a)∼B[ζQϕ(s,πθ(s))]−∥πθ(s)−

最低0.47元/天 解锁文章
605

被折叠的 条评论
为什么被折叠?



