自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(95)
  • 收藏
  • 关注

原创 【强化学习实验】- PPO

基于cartPole环境,实验效果,并于比较。PPO通俗理解:不见兔子不撒鹰,兔子代表优势,优势>0就提高动作概率,否则降低动作概率。相较而言,策略梯度未建模优势,朴素AC算法倒是建模了优势,两者区别是:① 朴素AC缺乏Trust-region 保护② 朴素AC的核心是log动作概率;PPO的核心是两个策略的动作比值。似乎PPO更直接粗暴。

2025-12-20 22:57:19 421

原创 【强化学习实验】- Actor-Critic

基于cart-pole环境,实验AC算法的效果,并于策略梯度比较。

2025-12-17 23:07:22 435

原创 【强化学习实验】- 策略梯度算法

模型训练750个epoch接近收敛,而后震荡收敛,整体效果并不是很好。a、仅使用sar数据,可能会限制算法的能力上线。loss = -微分对象=-Q*log概率。② 编码核心目标函数 及其 loss函数。文章中2.2 策略梯度算法。b、无偏,但是方差比较大。② 思考算法的优缺点。

2025-12-15 23:32:38 310

原创 具身智能路线

pybullet 是用 Python 免费调用 Bullet 物理引擎的库,用来做机器人、游戏、影视、AI 的刚体/碰撞/动力学仿真。Bullet 的 C++ 内核用 CPython 接口封装,让 Python 用户也能调用工业级物理仿真功能,而不用自己写 C++。pybullet ≈ “Python 版的 Bullet 物理引擎”。类似于强化学习的gym,是更强大的环境,可以用于训练机器人。),bullet本身是子弹的意思,和刚体有一定相关性。一个开源的刚体/动力学物理引擎。

2025-10-19 22:49:46 256

原创 behavior行为挑战赛

提供经典行为克隆基线模型(ACT、Diffusion Policy 等)和预训练视觉语言动作模型(OpenVLA 和 π0)的训练及评估管道。网站开源所有代码、数据和模拟资产,提供入门套件和详细文档,帮助参与者快速上手,还为新手准备了教程和指导。次要指标用于衡量效率,包括模拟时间(总模拟步数 × 每步时间)、导航距离(机器人底座移动的总距离)和手部位移(手部累计移动距离)。包含同步的 RGBD 观测、物体和部件级分割、物体真实状态、机器人本体感受和动作,以及技能和子任务注释。平均轨迹时长6.6 分钟。

2025-10-14 17:14:27 911

原创 具身智能综述1:Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI

具身智能入门了解调研

2025-09-09 23:55:52 637

原创 强化学习-笔记

定义:是智能体在与环境交互中来实现目标的一种算法,这里的强化是强化智能体的策略 — 让策略更倾向于选择高价值动作最终实现累积奖励期望的最大化。基本过程:智能体agent看到状态St,采取动作At施加到环境中,得到奖励rt,同时环境转移为St+1,简称sars。关键要素:感知、决策、奖励。

2025-09-09 08:09:23 799

原创 GPT开始引起人们的注意力了

GPT发展史

2023-02-20 11:02:47 624

原创 <script type=“text/javascript“ id=“clustrmaps“ src=“//clustrmaps.com/map_v2.js?d=ve6F6SS11iG4uIguoTW

<script type="text/javascript" id="clustrmaps" src="//clustrmaps.com/map_v2.js?d=ve6F6SS11iG4uIguoTWVRUjvilkuBNsM2hxvFs-6aos&cl=ffffff&w=a"></script>

2023-02-18 21:44:25 305

原创 leetcode刷题

hashmap

2022-06-15 00:01:31 687

原创 排序-计数排序-单调递增数组

计数排序

2022-06-14 00:22:59 286

原创 20220606-重复元素

滑窗 + 哈希set

2022-06-07 00:17:41 192

原创 20220601-数组-杨辉三角

javapython数组杨辉三角

2022-06-02 00:28:06 272

原创 20220228-数组-加法

-数组-加法

2022-06-01 00:17:25 134

原创 20220228-数组-二分

题目给定一个排序数组和一个目标值,在数组中找到目标值,并返回其索引。如果目标值不存在于数组中,返回它将会被按顺序插入的位置。请必须使用时间复杂度为 O(log n) 的算法。来源:力扣(LeetCode)链接:https://leetcode.cn/problems/search-insert-position思路二分法:小于target的话,左边界=mid+1;大于target的话,右边界=mid-1注意直接两个边界相等的case代码class Solution {.

2022-05-28 21:05:16 138

原创 Spring笔记

Spring

2022-05-28 19:57:00 141

原创 XK 计划

Springleetcode二分法边际

2022-05-28 00:47:57 266

原创 20220524-每天一道简单题-按摩师-数组-递归-记忆

文章目录题目代码展示题目一个有名的按摩师会收到源源不断的预约请求,每个预约都可以选择接或不接。在每次预约服务之间要有休息时间,因此她不能接受相邻的预约。给定一个预约请求序列,替按摩师找到最优的预约集合(总预约时间最长),返回总的分钟数。来源:力扣(LeetCode)链接:https://leetcode.cn/problems/the-masseuse-lcci代码展示简而言之,就是求最大 子序和,条件是element不能是连续的思路:递归 + 记忆练习点:如...

2022-05-24 13:52:44 185

原创 torch.scatter()

torch.scatter

2021-10-20 14:15:55 637

原创 torch.gather()理解

torch.gather

2021-10-20 10:27:18 161

原创 torch定制优化器optim

2021-10-08 20:36:19 240

翻译 filter_specific _rows

行筛选pandas

2021-08-26 21:21:38 149

翻译 groupby

import pandas as pdimport numpy as npimport matplotlib.pyplot as plt%matplotlib inlineGroupBygroup_by的底层步骤:(1)split:依据某个标准把数据 分割(2)Apply:将某个函数 应用 到每一组数据,例如agg、transform(3)combining:将结果合并在apply这一步,我们可以采取:(1)聚合操作:将一个group的数据映射为一个数,例如求平均值、group内元素的

2021-08-22 11:51:19 3400

翻译 GroupBy

GroupBy

2021-08-22 02:02:26 492

翻译 groupby2

pandasgroupby

2021-08-20 02:24:52 163

翻译 1-9_time_data

pandas时间处理

2021-08-18 02:01:51 179

翻译 1-8_combine_data_from_multiple_tables

pandas表连接

2021-08-18 01:57:44 181

原创 shell-No such file or directory

Shell脚本的路径

2021-07-31 11:11:11 254

原创 【python】-打包发布自己的项目

python项目发布

2020-11-23 22:04:37 254

原创 【数据库-mysql】备份、用户管理、权限管理

备份、用户管理、权限管理

2020-11-04 11:16:00 367

原创 【数据库-mysql】索引、视图与触发器

索引、视图与触发器

2020-10-10 20:36:57 501

原创 【数据库-mysql】存储与事务

存储与事务

2020-10-10 20:32:52 190

原创 【词源】

词源

2020-10-06 19:04:10 252

原创 【数据库-mysql】数据库和数据表的基本操作

mysql基本操作

2020-10-05 21:02:16 527

原创 【数据库-mysql】- 数据库的连接

2020-10-05 20:43:34 110

原创 【机器学习】- 极简系列 - 决策树

决策树

2020-08-11 21:04:54 241

原创 【机器学习】- 极简系列 - 朴素贝叶斯

朴素贝叶斯

2020-08-10 21:25:39 162

原创 【机器学习】- 极简系列-感知机

感知机

2020-08-09 17:23:39 220

原创 【机器学习】- 仿射变换/仿射函数

放射函数放射变换

2020-08-05 11:45:56 1139

原创 【leetcode】- 动态规划 - 背包九讲

2020-07-29 15:32:26 314

【强化学习实验】- PPO

【强化学习实验】- PPO

2025-12-20

【强化学习实验】- Actor-Critic

【强化学习实验】- Actor-Critic

2025-12-17

cartpole-策略梯度实验

cartpole-策略梯度实验

2025-12-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除