强化学习
文章平均质量分 87
虾饺爱下棋
github:https://github.com/zhongzhengli13
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
宇树 Qmini 双足机器人训练个人经验总结
本文总结了在AutoDL云服务器上训练和测试Qmini机器人的实践经验。由于云服务器headless环境存在驱动兼容性问题,无法正常渲染和录制视频,建议采用云端训练+本地测试的方案。具体流程包括:使用train.py训练模型,通过TensorBoard查看结果,用play.py测试策略,导出ONNX模型,以及调试URDF和PID参数。常见问题如6006端口占用可通过lsof解决,而渲染失败问题则需在本地Ubuntu系统进行演示。这种分离式方案能有效规避云端渲染限制,提高开发效率。原创 2025-12-07 11:03:24 · 739 阅读 · 0 评论 -
强化学习_演员-裁判方法
演员-裁判方法,这种方法在处理复杂环境和高维状态空间时特别有效,因为它利用了策略的直接建模和价值函数的指导。原创 2025-03-19 14:54:38 · 648 阅读 · 0 评论 -
基于策略的强化学习
基于策略的学习:如果已知一个好的策略函数π,智能体可以根据该策略随机采样动作a∼π(s)策略网络:通过策略梯度算法学习策略网络,以最大化期望回报。策略梯度算法:学习参数θ,以最大化 E[VS;θ)]。原创 2025-03-19 14:44:01 · 1090 阅读 · 0 评论 -
强化学习基础_基于价值的强化学习
基于价值的强化学习原创 2025-03-19 12:00:00 · 1048 阅读 · 0 评论 -
强化学习基础知识
强化学习基础知识点的解析。原创 2025-03-18 19:31:13 · 983 阅读 · 0 评论
分享