自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 Ubuntu 22.04 chrome无法播放youtube和bilibili视频

Ubuntu 22.04 chrome无法播放youtube和bilibili视频,但是firefox可以,应该不是网络原因,之前甚至无法播放本地mp4文件,但是sudo apt-get install ubuntu-restricted-extras后可以播放本地mp4文件了,依然chrome无法播放youtube和bilibili视频,一直页面卡顿。打开后还是无法解决。发现是音频服务死锁 (Audio Sink Deadlock)的问题。刷新 Chrome 中的 Bilibili 页面,问题解决了!

2026-01-05 20:09:57 261

原创 过拟合/灾难性遗忘:SFT vs on-policy RL

"RL 因为 on-policy 所以主分量不变"更准确的理解RLHF/PPO 的 on-policy 采样让学习发生在模型当前分布附近KL/信赖域(显式 KL 或 PPO clipping)把优化偏好推向"最小 KL 的解"在 Fisher/Hessian 的谱分解里,这等价于:强烈抑制高敏感(可视作"主")方向的更新把改动集中到低敏感(“次要”)方向上数学表达Ey∼πθ⋅Ey∼πθ​​⋅,采样分布 = 当前策略分布KLπθΔθ∥πθ。

2026-01-04 21:51:32 591

原创 四足机器人强化学习步态奖励:脚部空中时间 vs 步态相位建模

在四足机器人强化学习领域,脚部空中时间奖励因其实现的简洁性和极强的地形适应能力,在开源代码和前沿论文中占据了主导地位。对于大多数开发者而言,这一技术路线确实“已经足够用”,尤其是在使用了 legged_gym 这种成熟框架的情况下,机器人能够快速学习到具有实战意义的稳定步态。然而,walk-these-ways 所代表的相位建模路线绝非过时,它是通往更高级别行为智能的必经之路。它所提供的对步态周期的显式控制,是实现能量最优控制、复杂行为组合和精准人机交互的基石。

2026-01-03 22:54:25 742

原创 机器人强化学习入门笔记(五)

论文提出了一种称为"行为多样性"(Multiplicity of Behavior, MoB)的方法,其核心思想是训练单个策略,使其能够根据行为参数执行多种不同的运动风格。这种方法允许在不重新训练的情况下,通过调整行为参数来适应新的任务和环境。作者训练了一个条件策略:π(at∣ot−H...ot,ct−H...ct,bt−H...bt)\pi(a_t|o_{t-H}...o_t, c_{t-H}...c_t, b_{t-H}...b_t)π(at​∣ot−H​...ot​,ct−H​...ct​,bt−H

2026-01-02 22:52:17 614

原创 机器人强化学习入门笔记(四)

配置位置第 71-161 行目标点格式:每个目标点是一个三元组[x, y, z][11.5, 6.0, 0.0], # 目标点 0:平地起点[13.0, 6.0, -0.2], # 目标点 1:金字塔地形[17.5, 6.0, -1.0], # 目标点 2:金字塔地形# ... 共约 30+ 个目标点[72.0, 7.85, 4.3], # 最后一个目标点目标点分布平地:目标点 0(起点)金字塔斜坡:目标点 1-4随机均匀地形(森林):目标点 5-8离散障碍物(矩阵):目标点 9-15。

2025-12-30 21:42:43 653

原创 机器人强化学习入门笔记(三)

参数值说明0.25动作缩放因子stiffness50 N·m/radPD 比例增益dampingPD 微分增益decimation4PD 控制频率倍数dt0.02 s策略更新周期GO2 环境是一个完整的四足机器人强化学习训练系统,通过精心设计的奖励函数、观测空间和控制流程,能够训练出在复杂地形上稳定行走的策略。分层控制:策略网络输出目标关节角度,PD 控制器转换为扭矩多目标奖励:平衡速度跟踪、稳定性、能量效率和安全性丰富观测:包含本体状态、指令和地形感知信息课程学习。

2025-12-27 23:07:06 592

原创 机器人强化学习入门笔记(二)

isaacgym:提供高性能的物理仿真环境legged_gym:定义具体的机器人任务和环境rsl_rl:实现强化学习算法和训练流程多种四足机器人模型自定义奖励函数和观测空间GPU 加速的并行训练从仿真到实物的迁移学习。

2025-12-27 10:42:23 956

原创 PPO算法详细推导与go2中实现解析

步骤计算内容数据来源代码位置1策略网络前向传播网络参数θcurrentθcurrent​ppo.py:942采样动作ata_tat​网络输出分布ppo.py:943记录旧策略概率网络输出ppo.py:964记录价值函数网络输出ppo.py:955环境交互执行动作6存储到缓冲区所有上述数据数据收集:使用当前策略收集数据,使用当前策略的数据计算GAE(相当于对GAE在当前策略采样,一次),新策略只计算概率(多次),多次更新新策略重要性采样:通过比率rtπθ。

2025-12-26 22:09:38 531

原创 机器人强化学习入门笔记(一)

因为python train.py --task=go2 --num_envs==64 --headless --max_iterations=50中"=="多一个等号;这是因为numpy版本问题,如果遇到这个只需要搜索所有用到np.float的地方将其改为float。表示当前目录(把当前目录当作一个 Python 包/项目来安装)

2025-12-26 10:19:55 392

原创 装ubuntu 20.04、Windows11双系统,开机选择进入Ubuntu,解锁后直接黑屏

如果要改grub,就输入sudo nano /etc/default/grub,然后修改。按CTRL+ALT+F3进入tty终端。"nosplash"`,再重启试试。再不行的话,就只能重装驱动了。不行的话,重装gdm。

2025-12-23 18:55:56 103

原创 Intel RealSense SDK 2.0 is missing, please install it from https://github.com/IntelRealSense/libr

再安装sudo apt-get install librealsense2-dev即可,然后catkin_make编译,如果报错,在exo_stand_status中新建一个include文件夹即可。

2024-10-29 22:44:09 768

原创 rqt_gui error in perspective manager in ROS

即在用字节内容替换值后,例如b'000000ff'并删除QtCore.QByteArray()创建,就rqt_gui可以无错误地启动。

2024-10-29 21:31:39 641

原创 x2go deprecated option issue

在右侧,将“默认终端应用程序”更改为“Windows 控制台主机”选项卡的右侧是一个“+”,然后是一个向下插入符号“v”在 Windows 中打开“终端”应用程序。按 [Windows 键] + S。它将打开一个带有单个选项卡的窗口。在打开的面板上,选择左侧的启动。

2024-04-24 10:41:38 460

原创 理解DreamerV2中似然损失与KL散度损失

image log loss和如下,

2024-03-22 23:45:46 2079 1

原创 GMM和EM

利用高斯分布构建高斯模型,拟合真实数据的分布。

2024-03-21 16:00:00 273 1

原创 随时间推移的概率推理——状态更新

FilteringSmoothing。

2024-01-24 11:00:00 473

原创 统计学习分析重学笔记(一):由想理解evidence引出的

概率分布表示随机变量的概率分布,被看做一个数值对象,在取某个值的条件下,变量的概率分布, 也就是把看做是。参数值并不是固定值,而是不确定的,因为我们并没有观察到。对于没有观察到的事件(得到证据证明其值是什么),其每种值都是有可能的。在中,参数应该也是一个值随机的变量, 因此应该是联合概率分布,而不是条件概率分布。应用最大似然估计来估计。很多场景下,我们可以看到”果”,也就是我们有变量的观测值,但我们不知道导致这个”果”的”因”是什么,也就是不知道变量是什么。

2024-01-20 23:11:36 2350

原创 将pygame打包成exe

5. 修改 .spec 文件(与main.py在同一文件夹中),将空的 datas[] 列表替换为assets目录路径,如下所示(使用元组!(注意:这个是最新版pyinstaller适用的代码,其他版本的resource_path函数,试过之后好像不太行)(注意:我自己打包是win10 pycharm中完成的,linux中打包应该直接生成不了exe文件)制作一个Python游戏。(注意,一定要保存,且关闭,再执行下面的命令,否则可能不会应用更改)(注意,不要使用'\',’/‘,我都试过会报错)

2023-10-16 10:40:39 1438 2

原创 ValueError: PyCapsule_GetPointer called with incorrect name

当在Ubuntu20.04中安装ROS Noetic时,使用。

2023-05-24 13:14:34 1391 2

原创 Ubuntu 20.04安装ROS Noetic

注意ROS目前并不支持Ubuntu 22.04,强行安装会报错,所以建议在Ubuntu18.04上安装。1. 设置您的计算机以接受来自 packages.ros.org 的软件。5. 环境设置,每次启动新 shell 时自动source,会很方便。或者在Ubuntu 20.04上安装ROS Noetic。4. Desktop-Full Install:(推荐)现在介绍如何安装ROS Noetic。您是否正在使用代理,请试试。7. 初始化rosdep。2. 设置您的Keys。

2023-05-23 00:11:26 442 1

原创 Could not load library libcudnn_cnn_infer.so.8. Error: libcuda.so: cannot open shared object file

2. 确定/usr/lib/x86_64-linux-gnu文件夹中是否有libcuda.so,如果没有的话,手动添加。1. 在~/.bashrc文件中加入。

2023-05-07 23:10:50 4291 6

原创 从零开始配深度学习服务器2023.04.01

这是一篇比较详细的新从零开始配深度学习服务器教程,可以根据目录直接跳转到需要参考的部分,希望能帮助到大家。

2023-04-01 23:14:51 938 2

随时间推移的概率推理-状态更新

随时间推移的概率推理-状态更新

2024-01-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除