强化学习算法
文章平均质量分 84
ZPC8210
robot
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
mujoco test
测试 MuJoCo 是否安装成功。这里提供几种测试方法,从简单到复杂。原创 2025-10-22 03:14:33 · 429 阅读 · 0 评论 -
Anaconda 安装
在 Ubuntu 上安装 Conda 有几种方法,我来为你详细介绍最常用的两种:Miniconda 和 Anaconda。原创 2025-10-22 02:30:27 · 346 阅读 · 0 评论 -
将模型嵌入到c++代码
如TensorFlow C++ API、PyTorch C++ API(LibTorch)、OpenVINO、ONNX Runtime、TFLite等。:例如,PyTorch模型转换为TorchScript,TensorFlow模型转换为SavedModel或冻结的PB格式,或者转换为ONNX格式。:通过CMake或其他构建工具链接推理库。。原创 2025-10-21 22:07:30 · 286 阅读 · 0 评论 -
CasADi mpc
CasADi是一个功能强大的非线性优化框架,非常适合与ROS2结合实现MPC。原创 2025-10-11 19:09:55 · 942 阅读 · 0 评论 -
ros2_mpc
如果你需要完全的控制权,或者现有的包不能满足你的需求(例如,你想实现一种特定的 MPC 变体),你可以自己开发一个控制器插件。这个过程非常复杂,需要扎实的控制理论和 C++ 编程基础。核心步骤概述:创建控制器包使用创建一个新的 C++ 包。在和中添加必要的依赖,如rclcppEigen3osqp-eigen(或其他 QP 求解器)。实现 MPC 算法状态空间模型:建立你的机器人的离散时间状态空间模型。这通常需要机器人的质量、转动惯量、关节阻尼等物理参数。成本函数:定义 MPC 的优化目标,例如。原创 2025-10-11 18:30:39 · 600 阅读 · 0 评论 -
ppo 如何训练机械人关节
均值网络:输入状态s,输出每个关节的动作均值μ = [μ₁, μ₂, ..., μₙ](n为关节数),通常通过全连接网络(MLP)实现,输出层用tanh激活函数限制在[-1, 1],再缩放至关节实际范围(如μ_i × 最大角度);输出分布参数:通常用高斯分布建模连续动作,策略网络输出动作的均值(μ)和标准差(σ),从该分布中采样动作(训练时)或直接取均值(测试时,减少随机性)。惩罚项:避免不良行为,如关节超限位(-50)、动作幅度过大(能耗惩罚,如-0.1×|动作|)、碰撞环境(-100);原创 2025-08-26 17:35:53 · 766 阅读 · 0 评论 -
pytorch 安装
PyTorch 是一个广泛使用的深度学习框架,安装过程相对简单。原创 2025-08-26 15:46:32 · 1794 阅读 · 0 评论 -
gym 安装
环境类型所需额外安装备注已包含Box2D需要 SWIGAtari需要 ROM 文件MuJoCo需要许可证 ($)Robotics需要 MuJoCoToy Text已包含FrozenLake 等简单环境建议根据实际需要的环境选择安装,避免不必要的依赖冲突。对于机器学习研究,通常需要至少安装 Box2D 和 Atari 组件。原创 2025-07-20 17:47:42 · 1114 阅读 · 0 评论 -
MuJoCo 物理引擎
编辑 XML 文件,参考。原创 2025-07-20 17:47:13 · 1091 阅读 · 0 评论 -
安装pytorch
print(f"设备名称: {torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'CPU'}")建议根据您的硬件配置和项目需求选择合适的安装方式,GPU版本能显著加速深度学习训练过程,但需要兼容的NVIDIA显卡支持。print(f"CUDA可用: {torch.cuda.is_available()}")print(f"CUDA版本: {torch.version.cuda}")选择您的配置后,网站会生成对应的安装命令。原创 2025-07-20 17:26:34 · 972 阅读 · 0 评论 -
将SAC强化学习算法部署到ROS2的完整指南
将Soft Actor-Critic (SAC)强化学习算法部署到ROS2环境中,可以实现智能机器人的自主决策和运动控制。下面详细介绍从算法集成到实际部署的全过程。原创 2025-07-20 13:30:40 · 908 阅读 · 0 评论 -
SAC强化学习进行机器人轨迹规划的完整指南
轨迹规划是机器人控制中的核心问题,SAC(Soft Actor-Critic)因其出色的探索能力和稳定性,特别适合解决复杂的连续控制类轨迹规划问题。下面我将详细介绍如何用SAC实现高效的轨迹规划。原创 2025-07-20 13:24:58 · 1028 阅读 · 0 评论 -
TD3与SAC强化学习算法深度对比
text开始│├── 是否需要精确控制?→ 是 → 选择TD3│ ├── 动作空间维度>10?→ 是 → 首选TD3│ └── 否 → 根据其他因素决定│├── 环境是否动态变化?→ 是 → 选择SAC│├── 奖励信号是否稀疏?→ 是 → 首选SAC│└── 其他情况 → 两者均可,建议:├── 初步测试用SAC(更稳定)└── 精细调优用TD3(更高上限)维度TD3优势SAC优势训练速度简单环境中收敛更快复杂环境中收敛更稳最终性能在部分任务中峰值更高。原创 2025-07-20 13:18:14 · 1223 阅读 · 0 评论 -
软演员-评论家(SAC)强化学习算法详解与实现
软演员-评论家(Soft Actor-Critic, SAC)是一种基于最大熵框架的深度强化学习算法,在连续动作空间任务中表现出色。下面我将全面介绍SAC的原理、实现细节以及在机器人控制中的应用。原创 2025-07-20 13:12:24 · 1085 阅读 · 0 评论 -
TD3 (Twin Delayed Deep Deterministic Policy Gradient) 强化学习算法详解与实现
TD3 (Twin Delayed Deep Deterministic Policy Gradient) 是一种先进的深度强化学习算法,专门针对连续动作空间问题设计。它是DDPG算法的改进版本,通过多项技术创新解决了DDPG存在的高估偏差问题。原创 2025-07-20 13:05:04 · 1184 阅读 · 0 评论 -
机械臂强化学习算法
• 先在 Isaac Gym 并行仿真训练,再使用“sim-to-real”域随机化(摩擦、质量随机扰动 10%)迁移到真实 Panda 机械臂,成功率维持 90% 以上。• HER(Hindsight Experience Replay)→ 与 DDPG/TD3/SAC 组合,解决“reach/pick-place”稀疏奖励问题。• DQN 系列:DQN、Double-DQN、Dueling-DQN → 适合离散关节档位控制。• 基础:关节角 + 末端位姿 + 目标位姿(7+7+3=17 维)。原创 2025-07-18 06:17:07 · 866 阅读 · 0 评论 -
深度学习算法与强化学习算法区别
深度学习(Deep Learning, DL)与强化学习(Reinforcement Learning, RL)经常被并列提及,但二者。原创 2025-07-18 06:11:11 · 409 阅读 · 0 评论 -
PPO算法:一种先进的强化学习策略
PPO(Proximal Policy Optimization)是一种增强学习算法,主要应用于解决连续控制任务。PPO算法在2017年由OpenAI提出,旨在解决传统策略梯度方法在连续控制任务中面临的挑战。PPO算法通过引入一个近似目标函数和重要性采样,提高了策略更新的稳定性和效率。PPO算法是一种有效的增强学习算法,适用于解决连续控制任务。通过引入近似目标函数和重要性采样,PPO算法减小了策略更新的方差,提高了学习效果。原创 2025-05-14 18:58:36 · 253 阅读 · 0 评论 -
强化学习_PPO算法
state定义:比如说视觉就是一幅图像或者是一幅矩阵(模型的输入)action定义:交互后的反应,例如选择上下左右(模型的输出,反作用于模型的下个输入state)初步理解:如何得到state和action:比如以超级玛丽游戏为例子,由现在的图片(当前状态state)作为输入,来控制上下左右走的行动action,也就是输出奖励(reward)背景:我们前面提到了超级玛丽的例子,提到了不同的行动,但是并没有说明那种行为更好,因此我们在此处引入了奖励奖励(reward)定义。原创 2025-05-14 18:53:03 · 652 阅读 · 0 评论
分享