机器人避障规划与模块化自重构机器人研究
在机器人技术领域,避障规划和模块化自重构机器人是两个重要的研究方向。本文将介绍一种用于可重构电缆驱动并联机器人(RCDPR)的深度期望SARSA算法,以及一款名为Ant3DBot的模块化自重构机器人。
深度期望SARSA算法在RCDPR避障规划中的应用
在强化学习(RL)中,许多方法利用了贝尔曼方程这一递归关系:
[Q(s_t, a_t) = r(s_t, a_t) + \gamma E_{a_{t+1} \sim \pi}[Q(s_{t+1}, a_{t+1})]]
在Soft AC中,随机动作下的Q值取代了相对于策略的期望Q值,这会给Q函数估计带来较大的方差。而期望SARSA则使用期望值,考虑了在当前策略下每个动作的可能性,其更新规则如下:
[Q’(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \cdot [r_t + \gamma \cdot E_{a_{t+1} \sim \pi}[Q(s_{t+1}, a_{t+1})] - Q(s_t, a_t)]]
Q函数逼近器由参数$\phi$表示,可以通过最小化损失函数来优化:
[Loss = \frac{1}{2}[Q_{\phi}(s, a) - Q’(s, a)]^2]
在机器人任务中,智能体的动作空间通常是低维且连续的,例如每个关节的扭矩或角位移。假设各维度相互独立,可以对动作进行均匀离散化,以获得关于策略函数的Q函数期望值:
[E_{a_{t+1} \sim \pi}[Q_{\phi}(s_{t+1}, a_{t+1})] \approx \sum_{k=1}^{m} \pi(a_{t+1,k}|s_
超级会员免费看
订阅专栏 解锁全文

28

被折叠的 条评论
为什么被折叠?



