- 博客(1001)
- 问答 (5)
- 收藏
- 关注
原创 【Text2reward】code_generation/single_flow/results/gpt-4-0331/maniskill-zeroshot
这个变量对于控制机器人精确接近并抓取方块起着关键作用。
2025-03-31 10:24:24
218
原创 【ManiSkill】环境success条件和reward函数学习笔记
这确保了机器人不仅能将物体准确放置在目标位置,而且能够稳定地保持静止,模拟现实世界中的稳定抓取和放置任务;当机器人成功抓取立方体并将其移动到目标位置后,系统会检查机器人是否稳定静止,以确保任务完成的稳定性和质量。如果所有关节速度都小于此阈值,则认为机器人处于静止状态。方法实现,具体检查机器人的。布尔型张量,在环境的。
2025-03-28 22:09:48
352
原创 【RL】请问,一般来说“function”跟“mapping”的区别是什么呀?
函数是特殊的映射,通常用于描述数值之间的关系;而映射是更一般的概念,可以描述任意集合之间的对应关系。
2025-03-22 10:34:18
196
原创 【RL】感觉“PPO在本质上并非是必需 on-policy”,而是其设计理念是“on-policy”的,即希望采样的数据跟“现有policy”不要相差太大;但并非“严格需要on-policy”,对吗?
传统 On-Policy 方法(如。
2025-03-18 21:10:14
832
原创 《Natural Actor-Critic》译读笔记
本文提出了一种新型的强化学习架构,即自然演员-评论家(Natural Actor-Critic)。The actor 的更新通过使用Amari的自然梯度方法进行策略梯度的随机估计来实现,而评论家则通过线性回归同时获得自然策略梯度和价值函数的附加参数。本文展示了使用自然策略梯度的actor改进特别有吸引力,因为这些梯度与所选策略表示的坐标框架无关,并且比常规策略梯度更高效。评论家利用了以策略梯度兼容的函数逼近实现的特殊基函数参数化(basis function parameterization)。
2025-03-09 15:25:30
332
原创 敏捷开发学习笔记
但是,我们想了一下,这样做会拖慢敏捷开发的进程,而且还需要大量的编码和调试,所以,我们当时搁置了这个需求;在训练Maniskill时,我们当时遇到一个问题,由于代码可能出现错误,导致训练失败;当时Eric就想用“标识”的方式在训练代码里面自动判断是否需要重新实验;
2025-03-04 20:22:34
169
原创 【CS285】为什么需要推导 REINFORCE-Gradient 公式呀?
∇θJθ≈N1i1∑N∇θlogπθτrτ刚开始我们有些不能理解为什么这里一定要将πθ变成“logπθ”的形式,感觉似乎是“多余的”……
2025-02-24 20:59:59
1060
原创 【CS285】听说过“欧氏距离”,这个“马氏距离(Mahalanobis distance)”又是什么呀?
马氏距离(Mahalanobis Distance)是一个衡量数据点之间“真实距离”的工具,它比欧氏距离更智能。我们可以通过一个简单例子来理解它。想象一群学生的数学和语文成绩分布成一个椭圆(而不是正圆),椭圆的长轴和短轴方向代表成绩的变化趋势。:欧氏距离默认每个坐标轴的重要性相同,且坐标轴之间完全独立(比如x轴和y轴没有关联)。假设你考试有两门科目:数学和语文。
2025-02-21 21:08:10
834
原创 【CS285】高斯策略对数概率公式的学习笔记
在课程CS285中提到了高斯策略对数概率公式的公式如下:logπθ(at∣st)=−12∥f(st)−at∥Σ2+const\log \pi_{\theta}(\mathbf{a}_t | \mathbf{s}_t) = -\frac{1}{2} \left\| f(\mathbf{s}_t) - \mathbf{a}_t \right\|_{\Sigma}^2 + \text{const}logπθ(at∣st)=−21∥f(st)−at∥Σ2+constPDF:Probabilit
2025-02-21 20:53:53
742
原创 代码存档学习笔记
您好,我正在学习Python编程;我总是担心我编写的程序会由于自己的失误而引入一些错误,但是我又无法恢复到上一次可以正常运行的版本了,我该怎么办呀?
2025-02-09 22:24:41
121
原创 【GAE】《High-Dimensional Continuous Control Using Generalized Advantage Estimation》译读笔记
Policy gradient methods 在 reinforcement learning 中是一种具有吸引力的方法,因为它们直接优化累积奖励,并且可以很直接地与非线性 function approximators 如 neural networks 一起使用。其两个主要挑战是通常需要大量的样本,以及尽管输入数据具有非平稳性但难以获得稳定而持续的改进(improvement)。
2025-01-26 15:57:08
312
原创 VirtualBox Main API 学习笔记
对于 Java 和 Python: 文档建议您首先使用"WEBSERVICE",因为它提供了一种更直观的方式来使用 API。
2025-01-07 15:26:51
251
空空如也
优快云的MarkDown编辑器里实现PyTorch文档排版效果
2023-03-29
请问一下,优快云写博文可以插入图标或者fontawesome图标吗?
2021-08-27
请问一下,对于ES引入规则,import模块的文件查找顺序在官方文档的什么地方呢?
2021-05-20
TA创建的收藏夹 TA关注的收藏夹
TA关注的人