- 博客(95)
- 收藏
- 关注
原创 【强化学习实验】- PPO
基于cartPole环境,实验效果,并于比较。PPO通俗理解:不见兔子不撒鹰,兔子代表优势,优势>0就提高动作概率,否则降低动作概率。相较而言,策略梯度未建模优势,朴素AC算法倒是建模了优势,两者区别是:① 朴素AC缺乏Trust-region 保护② 朴素AC的核心是log动作概率;PPO的核心是两个策略的动作比值。似乎PPO更直接粗暴。
2025-12-20 22:57:19
421
原创 【强化学习实验】- 策略梯度算法
模型训练750个epoch接近收敛,而后震荡收敛,整体效果并不是很好。a、仅使用sar数据,可能会限制算法的能力上线。loss = -微分对象=-Q*log概率。② 编码核心目标函数 及其 loss函数。文章中2.2 策略梯度算法。b、无偏,但是方差比较大。② 思考算法的优缺点。
2025-12-15 23:32:38
310
原创 具身智能路线
pybullet 是用 Python 免费调用 Bullet 物理引擎的库,用来做机器人、游戏、影视、AI 的刚体/碰撞/动力学仿真。Bullet 的 C++ 内核用 CPython 接口封装,让 Python 用户也能调用工业级物理仿真功能,而不用自己写 C++。pybullet ≈ “Python 版的 Bullet 物理引擎”。类似于强化学习的gym,是更强大的环境,可以用于训练机器人。),bullet本身是子弹的意思,和刚体有一定相关性。一个开源的刚体/动力学物理引擎。
2025-10-19 22:49:46
256
原创 behavior行为挑战赛
提供经典行为克隆基线模型(ACT、Diffusion Policy 等)和预训练视觉语言动作模型(OpenVLA 和 π0)的训练及评估管道。网站开源所有代码、数据和模拟资产,提供入门套件和详细文档,帮助参与者快速上手,还为新手准备了教程和指导。次要指标用于衡量效率,包括模拟时间(总模拟步数 × 每步时间)、导航距离(机器人底座移动的总距离)和手部位移(手部累计移动距离)。包含同步的 RGBD 观测、物体和部件级分割、物体真实状态、机器人本体感受和动作,以及技能和子任务注释。平均轨迹时长6.6 分钟。
2025-10-14 17:14:27
911
原创 具身智能综述1:Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI
具身智能入门了解调研
2025-09-09 23:55:52
637
原创 强化学习-笔记
定义:是智能体在与环境交互中来实现目标的一种算法,这里的强化是强化智能体的策略 — 让策略更倾向于选择高价值动作最终实现累积奖励期望的最大化。基本过程:智能体agent看到状态St,采取动作At施加到环境中,得到奖励rt,同时环境转移为St+1,简称sars。关键要素:感知、决策、奖励。
2025-09-09 08:09:23
799
原创 <script type=“text/javascript“ id=“clustrmaps“ src=“//clustrmaps.com/map_v2.js?d=ve6F6SS11iG4uIguoTW
<script type="text/javascript" id="clustrmaps" src="//clustrmaps.com/map_v2.js?d=ve6F6SS11iG4uIguoTWVRUjvilkuBNsM2hxvFs-6aos&cl=ffffff&w=a"></script>
2023-02-18 21:44:25
305
原创 20220228-数组-二分
题目给定一个排序数组和一个目标值,在数组中找到目标值,并返回其索引。如果目标值不存在于数组中,返回它将会被按顺序插入的位置。请必须使用时间复杂度为 O(log n) 的算法。来源:力扣(LeetCode)链接:https://leetcode.cn/problems/search-insert-position思路二分法:小于target的话,左边界=mid+1;大于target的话,右边界=mid-1注意直接两个边界相等的case代码class Solution {.
2022-05-28 21:05:16
138
原创 20220524-每天一道简单题-按摩师-数组-递归-记忆
文章目录题目代码展示题目一个有名的按摩师会收到源源不断的预约请求,每个预约都可以选择接或不接。在每次预约服务之间要有休息时间,因此她不能接受相邻的预约。给定一个预约请求序列,替按摩师找到最优的预约集合(总预约时间最长),返回总的分钟数。来源:力扣(LeetCode)链接:https://leetcode.cn/problems/the-masseuse-lcci代码展示简而言之,就是求最大 子序和,条件是element不能是连续的思路:递归 + 记忆练习点:如...
2022-05-24 13:52:44
185
翻译 groupby
import pandas as pdimport numpy as npimport matplotlib.pyplot as plt%matplotlib inlineGroupBygroup_by的底层步骤:(1)split:依据某个标准把数据 分割(2)Apply:将某个函数 应用 到每一组数据,例如agg、transform(3)combining:将结果合并在apply这一步,我们可以采取:(1)聚合操作:将一个group的数据映射为一个数,例如求平均值、group内元素的
2021-08-22 11:51:19
3400
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅