songyuc-优快云博客

原创【Text2reward】code_generation/single_flow/results/gpt-4-0331/maniskill-zeroshot

这个变量对于控制机器人精确接近并抓取方块起着关键作用。

2025-03-31 10:24:24 218

原创【ManiSkill】环境success条件和reward函数学习笔记

这确保了机器人不仅能将物体准确放置在目标位置，而且能够稳定地保持静止，模拟现实世界中的稳定抓取和放置任务；当机器人成功抓取立方体并将其移动到目标位置后，系统会检查机器人是否稳定静止，以确保任务完成的稳定性和质量。如果所有关节速度都小于此阈值，则认为机器人处于静止状态。方法实现，具体检查机器人的。布尔型张量，在环境的。

2025-03-28 22:09:48 352

原创遥感期刊审稿学习笔记

如果遇到“account is temporarily unavailable”，可以参考官方的。

2025-03-28 10:39:53 231

原创 Real Analysis 学习笔记

【代码】Real Analysis 学习笔记。

2025-03-26 16:27:21 70

原创【Text2reward】code_generation/gold_reward_rewrite

Text2reward学习笔记

2025-03-24 14:53:13 248

原创【RL】请问，一般来说“function”跟“mapping”的区别是什么呀？

函数是特殊的映射，通常用于描述数值之间的关系；而映射是更一般的概念，可以描述任意集合之间的对应关系。

2025-03-22 10:34:18 196

原创【Mani_skill】success判断的核心调用逻辑

【代码】【Mani_skill】success判断的核心调用逻辑。

2025-03-21 12:01:17 168

原创【RL】感觉“PPO在本质上并非是必需 on-policy”，而是其设计理念是“on-policy”的，即希望采样的数据跟“现有policy”不要相差太大；但并非“严格需要on-policy”，对吗？

传统 On-Policy 方法（如。

2025-03-18 21:10:14 832

原创骨质健康护理笔记

《骨质疏松症不是“老年病”！除了补钙、晒太阳，专家还推荐… —— 健康湖北》

2025-03-13 18:29:19 177

本文提出了一种新型的强化学习架构，即自然演员-评论家（Natural Actor-Critic）。The actor 的更新通过使用Amari的自然梯度方法进行策略梯度的随机估计来实现，而评论家则通过线性回归同时获得自然策略梯度和价值函数的附加参数。本文展示了使用自然策略梯度的actor改进特别有吸引力，因为这些梯度与所选策略表示的坐标框架无关，并且比常规策略梯度更高效。评论家利用了以策略梯度兼容的函数逼近实现的特殊基函数参数化（basis function parameterization）。

2025-03-09 15:25:30 332

原创【信息几何】Information Geometry 学习笔记

信息几何学习笔记

2025-03-06 23:35:51 122

原创敏捷开发学习笔记

但是，我们想了一下，这样做会拖慢敏捷开发的进程，而且还需要大量的编码和调试，所以，我们当时搁置了这个需求；在训练Maniskill时，我们当时遇到一个问题，由于代码可能出现错误，导致训练失败；当时Eric就想用“标识”的方式在训练代码里面自动判断是否需要重新实验；

2025-03-04 20:22:34 169

原创开源项目查找笔记

开源项目查找笔记

2025-03-03 21:42:37 236

原创【RL】Replay-Buffer的核心作用是提高样本效率

ReplayBuffer

2025-03-02 17:22:25 160

原创 Ubuntu显卡服务器黑屏无响应的维护日志

我们在使用Ubuntu服务器时遇到了系统突然无响应的情况，具体表现如下：

2025-03-02 16:08:49 298

原创 Mainland买药学习笔记

买药学习笔记

2025-03-01 21:30:51 101

原创牙齿护理笔记

牙齿护理笔记

2025-02-26 20:08:10 73

原创智能门锁使用笔记

智能门锁使用笔记

2025-02-25 20:19:03 109

原创【CS285】为什么需要推导 REINFORCE-Gradient 公式呀？

∇θJθ≈N1i1∑N∇θlogπθτrτ刚开始我们有些不能理解为什么这里一定要将πθ变成“logπθ”的形式，感觉似乎是“多余的”……

2025-02-24 20:59:59 1060

原创【CS285】听说过“欧氏距离”，这个“马氏距离（Mahalanobis distance）”又是什么呀？

马氏距离（Mahalanobis Distance）是一个衡量数据点之间“真实距离”的工具，它比欧氏距离更智能。我们可以通过一个简单例子来理解它。想象一群学生的数学和语文成绩分布成一个椭圆（而不是正圆），椭圆的长轴和短轴方向代表成绩的变化趋势。：欧氏距离默认每个坐标轴的重要性相同，且坐标轴之间完全独立（比如x轴和y轴没有关联）。假设你考试有两门科目：数学和语文。

2025-02-21 21:08:10 834

原创【CS285】高斯策略对数概率公式的学习笔记

在课程CS285中提到了高斯策略对数概率公式的公式如下：log⁡πθ(at∣st)=−12∥f(st)−at∥Σ2+const\log \pi_{\theta}(\mathbf{a}_t | \mathbf{s}_t) = -\frac{1}{2} \left\| f(\mathbf{s}_t) - \mathbf{a}_t \right\|_{\Sigma}^2 + \text{const}logπθ(at∣st)=−21∥f(st)−at∥Σ2+constPDF：Probabilit

2025-02-21 20:53:53 742

原创相亲学习笔记

相亲学习笔记

2025-02-13 12:47:28 103

原创【ManiSkill】sac.py - Args

该参数决定智能体在执行多少次环境交互后启动一次模型参数更新。用于模型单次训练的环境交互步数。

2025-02-11 19:12:02 205

原创【ManiSkill】sac.py - notes

【代码】【ManiSkill】sac.py - notes。

2025-02-11 16:41:46 266

原创代码存档学习笔记

您好，我正在学习Python编程；我总是担心我编写的程序会由于自己的失误而引入一些错误，但是我又无法恢复到上一次可以正常运行的版本了，我该怎么办呀？

2025-02-09 22:24:41 121

原创 Pygame学习笔记

【代码】Pygame学习笔记。

2025-02-07 20:23:35 104

原创【RL】PPO算法学习笔记

Keywords: PPO

2025-02-04 22:01:34 114

原创线性代数复习笔记

线性代数复习

2025-02-01 15:45:37 1452

原创关于pygame窗口输入法状态异常切换现象的分析报告

我们准备使用Pygame开发一个键盘输入测试程序，在输入时需确保窗口，禁止中文输入；

2025-01-26 23:11:41 335

原创【GAE】《High-Dimensional Continuous Control Using Generalized Advantage Estimation》译读笔记

Policy gradient methods 在 reinforcement learning 中是一种具有吸引力的方法，因为它们直接优化累积奖励，并且可以很直接地与非线性 function approximators 如 neural networks 一起使用。其两个主要挑战是通常需要大量的样本，以及尽管输入数据具有非平稳性但难以获得稳定而持续的改进（improvement）。

2025-01-26 15:57:08 312