机器人手臂的机器学习与接口创建
1. 机器人手臂的机器学习
1.1 增量学习与奖励分配
在机器人手臂的机器学习中,增量学习是神经网络的一部分。我们会使用之前在神经网络中用过的工具,将奖励传播到使手移动到某个位置的一系列动作步骤中。在强化学习里,这被称为奖励折扣,即把奖励分配到多步过程的每一步。状态和动作的组合被称为策略,也就是告诉机器人“当你处于这个位置,想要移动到那个位置时,执行这个动作”。
1.2 学习过程步骤
机器人手臂的学习过程如下:
1. 设定目标位置 :设定机器人手的目标位置,以毫米为单位,用手臂旋转中心的 X 和 Z 坐标表示。
2. 尝试动作 :机器人会尝试一系列动作以接近目标。我们不会直接告诉机器人到达目标所需的电机位置,它必须自己学习。初始动作是随机生成的,并且会限制动作的增量(类似于学习率),避免手臂大幅摆动。
3. 动作评分 :在每一次增量动作后,根据手臂是否更接近目标位置对动作进行评分。
4. 记忆动作 :机器人会将起始状态、动作与奖励分数关联起来,记住这些动作。
5. 训练神经网络 :训练神经网络,根据起始状态和动作输入生成积极结果的概率。这样手臂就能学习哪些动作序列能取得积极结果,从而根据起始位置预测正确的动作。
6. 添加奖励机制 :为了提高效率,我们会为快速完成任务添加奖励,即完成任务步骤越少,奖励越高。
7.
超级会员免费看
订阅专栏 解锁全文
1610

被折叠的 条评论
为什么被折叠?



