- 博客(7)
- 收藏
- 关注
原创 PPO原理介绍
一般第一个epoch的第一个batch的时候,由于此时新策略等于旧策略,因此新旧策略概率之比等于1,由二中的图也能看出。这个公式中的第二项clip(...)表示rt(θ)不超过后面的范围,若超过则取对应的边界值,最终的目标函数是取裁剪前和裁剪后的最小值,最终的目标是一个下界。上面的 a_t 为 t 时刻的动作,s_t 为 t 时刻的状态,Π_θ(a_t|s_t) 为该状态下执行该动作的概率密度,A_t 是对应的优势函数,E_t[...] 表示对应期望。而策略更新的目标就是找到能让目标函数最大的参数θ组合。
2025-12-18 16:56:59
233
原创 灵巧手调研
本文综述了多种灵巧手的驱动机制与技术特点:耶鲁大学开源欠驱动四指手采用差速器和伺服电机驱动;MLP_V2假肢手采用全驱动电机方案,集成多种传感器和阻抗控制;并联机构灵巧手利用菱形机构实现精确运动;此外还提及生物肌肉驱动方案。各方案在驱动方式、自由度、控制策略等方面各具特色,为机器人灵巧手设计提供了多样化参考。文章还介绍了相关技术术语如差速器类型、阻抗控制、并联机构等核心技术概念。
2025-11-04 18:01:50
835
原创 贝叶斯最优化原理拆解
贝叶斯优化通过构建高斯过程代理模型减少实际目标函数计算。流程包括:1)初始采样训练代理模型;2)模型预测参数性能并与当前最优比较;3)更新模型迭代优化。高斯过程模型利用均值函数和核函数(如RBF、Matern核)计算后验分布进行预测。采集函数(如期望改进EI)指导参数选择,平衡探索与开发。该方法能高效处理小样本问题,通过迭代更新后验分布逐步收敛至最优解,显著降低计算成本。
2025-11-04 17:55:50
458
原创 关于用matlab和gazebo进行联合仿真
matlab及其拥有的simulink和其他形形色色的工具包,让matlab成为了一个很好的仿真软件,同时matlab还具有很好的数学计算能力,对于机器人运动中的逆解问题,matlab表现出了不俗的能力,因为,后续的仿真,我打算通过matlab进行完成。
2024-10-03 23:30:44
695
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1