机器人与船舶相关技术研究
1. 基于深度强化学习的机械臂抓取
在机械臂抓取领域,基于近端策略优化(PPO)的无模型机械臂抓取策略被提出。该策略结合自注意力机制,有效提升了学习能力。
1.1 PPO超参数设置
| 参数 | 值 |
|---|---|
| 折扣因子γ | 0.993 |
| 学习率α | 0.0002 |
| PPO中的裁剪因子ϵ | 0.2 |
| GAE中的折扣因子λ | 0.9 |
| 轨迹长度N | 1024 |
| 训练轮数 | 20 |
| 批量大小 | 128 |
| 季节 | 35 |
1.2 注意力机制的影响
研究对比了Luong类型和Bahdanau类型两种注意力机制在5种结构中的训练结果。从单独的训练结果来看,Luong - 4和Bahdanau - 4表现较好,且Luon
超级会员免费看
订阅专栏 解锁全文
1161

被折叠的 条评论
为什么被折叠?



