
强化学习
文章平均质量分 55
music&movie
这个作者很懒,什么都没留下…
展开
-
具身系列——比较3种vpg算法方式玩CartPole游戏(强化学习)
文档2方式参考:https://gitee.com/chencib/ailib/blob/master/rl/vpg_batchupdate_cartpole.py。文档1方式参考:https://gitee.com/chencib/ailib/blob/master/rl/vpg_baseline_cartpole.py。文档3方式参考:https://gitee.com/chencib/ailib/blob/master/rl/vpg_standard_cartpole.py。原创 2025-05-04 11:47:24 · 745 阅读 · 0 评论 -
具身系列——Double DQN算法实现CartPole游戏(强化学习)
【代码】具身系列——Double DQN算法实现CartPole游戏(强化学习)原创 2025-05-04 11:09:50 · 191 阅读 · 0 评论 -
具身系列——Q-Learning算法实现CartPole游戏(强化学习)
【代码】具身系列——Q-Learning算法实现CartPole游戏(强化学习)原创 2025-05-04 10:39:05 · 182 阅读 · 0 评论 -
具身系列——PPO算法实现CartPole游戏(强化学习)
完整代码参考: https://gitee.com/chencib/ailib/blob/master/rl/ppo_cartpole.py。原创 2025-05-03 22:41:26 · 1048 阅读 · 0 评论 -
ubiquant比赛系列——分析ubipoker基线算法
对每种状态,在现有手牌和公共牌的基础上,进行1000次模拟发牌,补至7张,计算此时的牌面weight。level = 2,双A双K 若跟注后超过300,放弃。level = 2,不超过双Q 若跟注后超过200,放弃。level =6, 跟注,若跟注后低于600,加注到500。level =5, 跟注,若跟注后低于500,加注到500。level =4, 跟注,若跟注后低于400,加注到500。非对子,最大为K-A: 若跟注后超过200,放弃。非对子,最大不超过9:若跟注后超过100,放弃。原创 2025-04-26 02:36:21 · 403 阅读 · 0 评论 -
具身系列——零样本倒水任务
的视觉编码层和策略网络结构,实现缝葡萄等更高精度的操作任务(需增加触觉传感器模拟)。• 采用CLIP模型处理视觉输入,将摄像头画面映射到512维特征空间。• 关节传感器数据(28自由度)与视觉特征拼接,形成680维状态向量。• 采用PPO算法保证训练稳定性(类似搜索中提到的GRPO优化)• 在策略网络中添加跨模态注意力层,实现不同杯具的泛化操作。该实例复现了搜索结果中机器人的核心能力,开发者可通过调整。• 动作频率达到100Hz,满足毫秒级响应需求。• 通过视频编码器提取人类动作的语义特征。原创 2025-04-25 01:23:07 · 274 阅读 · 0 评论 -
低资源需求的大模型训练项目---调研0.5B大语言模型
• 参数仅0.5B,采用共享FFN设计降低冗余,在资源受限设备(如手机、平板)上推理速度达147 tokens/s,内存占用仅350MB。• 基于0.5B模型的思维链优化版本,通过软化奖励机制(分步得分)实现长思考链生成,但存在收敛至短推理模式的风险,需结合课程学习逐步训练。:数学推理、长文本逻辑处理准确率显著低于7B+模型(如Qwen2.5-72B的GSM8K得分95.8 vs. 0.5B的9.7)。(如百万级Token),建议使用A10或更高性能显卡,以避免显存瓶颈导致的频繁数据加载中断。原创 2025-04-13 20:11:22 · 761 阅读 · 0 评论 -
具身系列——Diffusion Policy算法实现CartPole游戏(模仿学习)
该代码实现了一个基于扩散模型(Diffusion Model)的强化学习策略网络。该实现展示了扩散策略的核心思想,但完整的扩散策略还需要实现完整的逆向采样过程,并可能需要调整噪声调度参数以获得更好的性能。:在动作空间逐步添加高斯噪声,将真实动作分布转化为高斯分布。:通过T步逐渐将专家动作添加高斯噪声,最终变成纯噪声。为噪声调度参数(网页4][网页5][网页8])。:训练神经网络预测噪声,通过T步逐步去噪生成动作。预测噪声残差(网页5][网页6][网页8])。(网页4][网页8][网页11])。原创 2025-03-26 14:10:49 · 495 阅读 · 0 评论 -
具身系列——算法实践和仿真环境使用
使用Pybullet仿真环境。使用Gazebo仿真环境。原创 2025-02-26 15:00:08 · 322 阅读 · 0 评论 -
手写系列——VPG算法或REINFORCE算法
【代码】手写系列——VPG算法或REINFORCE算法。原创 2025-01-11 21:12:03 · 314 阅读 · 0 评论 -
强化学习入门
RL学习路径理解DQN原理理解 标准版的策略梯度算法(Vanilla Policy Gradient)模仿学习实践Actor-Critic原理从大模型机器人到imitation Learning与diffusion policy、ACT(Action Chunking with Transformers)的关系大模型与机器人原创 2025-01-08 22:10:28 · 131 阅读 · 0 评论