涛涛北京-优快云博客

原创【强化学习实验】- PPO

基于cartPole环境，实验效果，并于比较。PPO通俗理解：不见兔子不撒鹰，兔子代表优势，优势>0就提高动作概率，否则降低动作概率。相较而言，策略梯度未建模优势，朴素AC算法倒是建模了优势，两者区别是：① 朴素AC缺乏Trust-region 保护② 朴素AC的核心是log动作概率；PPO的核心是两个策略的动作比值。似乎PPO更直接粗暴。

2025-12-20 22:57:19 421

原创【强化学习实验】- Actor-Critic

基于cart-pole环境，实验AC算法的效果，并于策略梯度比较。

2025-12-17 23:07:22 435

原创【强化学习实验】- 策略梯度算法

模型训练750个epoch接近收敛，而后震荡收敛，整体效果并不是很好。a、仅使用sar数据，可能会限制算法的能力上线。loss = -微分对象=-Q*log概率。② 编码核心目标函数及其 loss函数。文章中2.2 策略梯度算法。b、无偏，但是方差比较大。② 思考算法的优缺点。

2025-12-15 23:32:38 310

pybullet 是用 Python 免费调用 Bullet 物理引擎的库，用来做机器人、游戏、影视、AI 的刚体／碰撞／动力学仿真。Bullet 的 C++ 内核用 CPython 接口封装，让 Python 用户也能调用工业级物理仿真功能，而不用自己写 C++。pybullet ≈ “Python 版的 Bullet 物理引擎”。类似于强化学习的gym，是更强大的环境，可以用于训练机器人。），bullet本身是子弹的意思，和刚体有一定相关性。一个开源的刚体／动力学物理引擎。

2025-10-19 22:49:46 256

原创 behavior行为挑战赛

提供经典行为克隆基线模型（ACT、Diffusion Policy 等）和预训练视觉语言动作模型（OpenVLA 和 π0）的训练及评估管道。网站开源所有代码、数据和模拟资产，提供入门套件和详细文档，帮助参与者快速上手，还为新手准备了教程和指导。次要指标用于衡量效率，包括模拟时间（总模拟步数 × 每步时间）、导航距离（机器人底座移动的总距离）和手部位移（手部累计移动距离）。包含同步的 RGBD 观测、物体和部件级分割、物体真实状态、机器人本体感受和动作，以及技能和子任务注释。平均轨迹时长6.6 分钟。

2025-10-14 17:14:27 911

原创具身智能综述1：Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI

具身智能入门了解调研

2025-09-09 23:55:52 637

原创强化学习-笔记

定义：是智能体在与环境交互中来实现目标的一种算法，这里的强化是强化智能体的策略 — 让策略更倾向于选择高价值动作最终实现累积奖励期望的最大化。基本过程：智能体agent看到状态St，采取动作At施加到环境中，得到奖励rt，同时环境转移为St+1，简称sars。关键要素：感知、决策、奖励。

2025-09-09 08:09:23 799

原创 GPT开始引起人们的注意力了

GPT发展史

2023-02-20 11:02:47 624

原创＜script type=“text/javascript“ id=“clustrmaps“ src=“//clustrmaps.com/map_v2.js?d=ve6F6SS11iG4uIguoTW

2023-02-18 21:44:25 305

原创 leetcode刷题

hashmap

2022-06-15 00:01:31 687

原创排序-计数排序-单调递增数组

计数排序

2022-06-14 00:22:59 286

原创 20220606-重复元素

滑窗 + 哈希set

2022-06-07 00:17:41 192

原创 20220601-数组-杨辉三角

javapython数组杨辉三角

2022-06-02 00:28:06 272

原创 20220228-数组-加法

-数组-加法

2022-06-01 00:17:25 134

原创 20220228-数组-二分

题目给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。请必须使用时间复杂度为 O(log n) 的算法。来源：力扣（LeetCode）链接：https://leetcode.cn/problems/search-insert-position思路二分法：小于target的话，左边界=mid+1；大于target的话，右边界=mid-1注意直接两个边界相等的case代码class Solution {.

2022-05-28 21:05:16 138

原创 Spring笔记

Spring

2022-05-28 19:57:00 141

原创 XK 计划

Springleetcode二分法边际

2022-05-28 00:47:57 266

原创 20220524-每天一道简单题-按摩师-数组-递归-记忆

文章目录题目代码展示题目一个有名的按摩师会收到源源不断的预约请求，每个预约都可以选择接或不接。在每次预约服务之间要有休息时间，因此她不能接受相邻的预约。给定一个预约请求序列，替按摩师找到最优的预约集合（总预约时间最长），返回总的分钟数。来源：力扣（LeetCode）链接：https://leetcode.cn/problems/the-masseuse-lcci代码展示简而言之，就是求最大子序和，条件是element不能是连续的思路：递归 + 记忆练习点：如...

2022-05-24 13:52:44 185

原创 torch.scatter()

torch.scatter

2021-10-20 14:15:55 637

原创 torch.gather()理解

torch.gather

2021-10-20 10:27:18 161

原创 torch定制优化器optim

2021-10-08 20:36:19 240

翻译 filter_specific _rows

行筛选pandas

2021-08-26 21:21:38 149

翻译 groupby

import pandas as pdimport numpy as npimport matplotlib.pyplot as plt%matplotlib inlineGroupBygroup_by的底层步骤：（1）split：依据某个标准把数据分割（2）Apply：将某个函数应用到每一组数据,例如agg、transform（3）combining：将结果合并在apply这一步，我们可以采取：（1）聚合操作：将一个group的数据映射为一个数，例如求平均值、group内元素的

2021-08-22 11:51:19 3400