- 博客(17)
- 收藏
- 关注
原创 【强化学习入门-1】如何理解策略函数和价值函数?
策略函数定义了智能体在某个状态下选择动作的规则,即描述从状态 ( s ) 到动作 ( a ) 的映射。每个状态对应一个确定的动作:πsa\pi(s) = aπsa在状态sss下,总是选择动作aaa。在每个状态下,选择动作的概率分布:πa∣sPa∣sπa∣sPa∣s在状态sss下,选择动作aaa的概率为Pa∣sP(a|s)Pa∣s。价值函数描述某个状态或状态-动作对的优劣程度,即智能体在一个状态下能获得的期望累计奖励。状态价值函数V。
2025-01-14 15:28:29
623
原创 【强化学习基础篇-1】Q-Learning
在本篇博客中,我们将介绍强化学习中的经典算法Q-Learning。Q-Learning是一种基于值函数的强化学习算法,用于估计在某一状态下采取某一动作的预期累积奖励。Q-Learning通过不断更新Q值函数,逐步改进策略,最终收敛到最优Q值函数。
2024-06-26 15:28:58
1127
原创 【MUJOCO控制篇-2】控制一个简单的机械臂
本篇博客将逐步分析和解释如何通过Python代码使用MuJoCo库来控制一个机械臂模型。我们将从加载模型开始,逐步深入到PID控制器的实现,最后讨论如何实现轨迹跟踪功能。上期内容为如何建模一个简单的机械臂模型,本篇文章将基于上篇内容进行深入探讨如何实现一个简单的控制。
2024-03-12 21:29:57
4730
9
原创 【MUJOCO控制篇-1】建一个简单的模型
【MUJOCO控制篇-1】建一个简单的模型在本篇博客中,我们将深入探讨一个具体的MuJoCo模型,通过其XML配置文件来解析模型的组成、设计理念及其在模拟环境中的作用。MuJoCo(Multi-Joint dynamics with Contact)是一种用于机器人学、生物力学、仿生学和其他领域的物理引擎,它支持精确的力学模拟和复杂交互的创建。
2024-03-11 12:00:40
2607
3
原创 【MUJOCO学习计划-4】Mujoco下的XML定义——关节(joint)
【MUJOCO学习计划-4】Mujoco下的XML定义——关节(joint)
2024-03-05 18:29:23
1157
1
原创 【MUJOCO学习计划-3】Mujoco下的XML定义——几何体(Geom)
【MUJOCO学习计划-3】Mujoco下的XML定义——几何体(Geom)
2024-03-05 18:28:29
1557
1
原创 【XML模型】Mujoco代码解读-2(humanoid.xml)
【XML模型】Mujoco代码解读-2(humanoid.xml)文章基于Mujoco210中model下的humanoid.xml文件作为例程
2024-03-02 16:35:41
1497
2
原创 【XML模型】Mujoco代码解读-1(humanoid.xml)
Mujoco代码解读-1(humanoid.xml)文章基于Mujoco210中model下的humanoid.xml文件作为例程
2024-03-02 16:11:59
1578
原创 MUJOCO-python GLFWError: (65544)
通过以上步骤,在Ubuntu 22.04 LTS版本中运行python脚本时,报错GLFWError: (65544) b'Wayland: Window position retrieval not supported'可以解决兼容问题并得到控制文件下的mujoco界面。
2024-03-02 12:06:11
1158
2
原创 解决Ubuntu 22.04中libosmesa6-dev安装问题(mujoco_py安装)
解决Ubuntu 22.04中`libosmesa6-dev`安装问题
2024-02-24 14:07:04
1210
1
原创 【MUJOCO学习计划-2】深入解析MuJoCo Python接口:功能与实例
MuJoCo(Multi-Joint dynamics with Contact)是一款用于精确模拟物理交互的高级工具。它的Python接口提供了丰富的功能,使得在科学研究和机器人技术开发中的应用成为可能。MuJoCo的Python接口为用户提供了强大的功能来创建和分析复杂的物理模拟。通过熟悉其各种函数,用户可以在机器人学、仿生学和其他领域进行高效的模拟和研究。
2024-02-02 11:02:53
1971
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人