自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ModestCoder_的博客

一个modest的coder

  • 博客(539)
  • 收藏
  • 关注

原创 PPO-clip算法在Gymnasium的Pendulum环境实现

我在gymnasium的pendulum环境上实现了PPO-clip算法,并通过调节超参数来探索超参数对训练过程与训练结果的作用。Pendulum环境:https://gymnasium.farama.org/environments/classic_control/pendulum/PPO-clip:https://hrl.boyuai.com/chapter/2/ppo%E7%AE%97%E6%B3%953、训练结果概览实验数量: 6测试回合数: 10奖励曲线https://live.c

2025-11-24 22:47:27 332

原创 扩散模型 (Diffusion Models) 深度研究

以 Sora 和 Stable Diffusion 3 为代表,架构正向 DiT (Diffusion Transformer) 演进。Flow Matching 是扩散模型的广义化与升级(如 Flux, SD3 均采用此技术)。扩散模型本身只是一个算法框架,它的核心是一个“预测噪声”的神经网络。只是一个“去噪器”或“指南针”,它本身不包含图像。直观:网络看一眼噪点图,猜猜看加了什么噪。逻辑:新位置 = 旧位置 - 速度。所有这些生成模型的终极统一思想是。“Stable” 指的是。技术,核心在于引入了。

2025-11-23 22:10:36 370

原创 强化学习人形机器人奖励函数分析

PPO (Proximal Policy Optimization) 是一种 Actor-Critic 架构算法。奖励函数是整个学习过程的指挥棒。学习预测未来的累积回报(Return)。用于处理物理限制的软约束,形式通常为单边损失(Hinge Loss)。,作为 Cost/Penalty 使用,用于约束能量和保持稳定。以下是代码中各个奖励项的数学表达及其物理含义分析。形式,旨在最大化机器人对指令的跟随精度。这种设计是现代机器人控制领域的标准范式。形式,在总奖励计算中通常会被赋予。

2025-11-23 16:44:43 573

原创 【学习笔记】Diffusion Policy for Robotics

本文档基于我的兴趣与关注,结合扩散模型理论,全面阐述 Diffusion Policy 在机器人领域的应用。文档涵盖理论基础、实践经验、代码实现和前沿研究。🎯 核心问题:为什么需要 Diffusion Policy?📐 Diffusion Models 理论基础🔄 策略范式演进:Explicit、Implicit 与 Diffusion Policy🎯 Diffusion Policy 核心机制​x0​+1−αˉt​​ϵ前向扩散直接从 x0x_0x0​ 采样 xtx_txt​L=E[∣ϵ−

2025-11-19 14:49:55 650

原创 Tokenization的演进:从NLP基石到多模态AI的“通用翻译器”

这是Tokenization的起源,专注于处理“文本”。在经典的NLP中,Tokenization(也常被称为“分词”)是将连续、非结构化的文本流,切分成一系列离散的、有意义的基本单元(Tokens)的过程。将自然语言转换为模型可以理解和处理的最小单元。现代大模型(如GPT、BERT)主要使用子词(Subword)Tokenization(如 BPE、WordPiece 算法)。介于“词”和“字符”之间。例如,可能会被分为。

2025-11-17 20:56:52 558

原创 OpenPI(π0) LoRA 微调操作指南

OpenPI LoRA 微调指南(RTX 4090适用) 本文提供RTX 4090(24GB显存)上使用LoRA微调OpenPI模型的完整流程,包含: 核心概念对比 LoRA微调仅需22.5GB显存,训练1-2%参数,速度更快 全量微调需要70GB+显存,训练全部参数 关键路径说明 数据集默认存储位置 检查点保存目录结构 预训练权重位置 训练配置详解 模型配置选项(gemma_2b_lora/gemma_300m_lora) 数据配置参数说明 优化器设置与学习率调度 实操建议 显存不足时可降低batch_s

2025-11-16 19:51:49 815

原创 【论文阅读】MDM : HUMAN MOTION DIFFUSION MODEL

不是完全都是人体动作。这一部分全部介绍的都是关于人体动作的生成。例如,它提到“神经动作生成,从动作捕捉数据中学习”、“从前缀姿态预测动作”、“解决插值和超分辨率任务”、“编辑和控制动作”、“根据动作类别、音频和自然语言进行控制”等,这些都明确指向生成人体动作。这一部分首先介绍了扩散模型作为一种通用生成模型。它提到扩散模型在“图像生成应用”中取得了突破,例如“文本到图像(text-to-image)”和“图像修复(inpainting)”。

2025-09-22 10:43:19 1081

转载 MuJoCo官方文档解读(转载)

MuJoCo官方文档解读

2025-07-02 23:09:27 157

原创 pip install package_name与 pip install -e .的区别(gemini生成)

特性(标准安装)(可编辑安装)目的使用/部署一个稳定的库版本开发/调试一个库或项目代码位置复制到目录留在原始源代码目录,中只存放一个指向该目录的链接修改生效需重新安装才能生效实时生效,无需重新安装pip list显示包名和版本显示包名、版本,以及本地源代码路径独立性独立于原始下载位置依赖于本地源代码目录常见场景安装 NumPy、Requests 等第三方库到你的应用中开发你自己的 Python 库,或对已安装库进行本地修改和测试所以,当你看到这样的输出时,就意味着faive_gym。

2025-06-29 20:26:02 775

原创 ROS中的里程计与IMU的消息类型解读

在 ROS中,里程计(Odometry)通常使用消息类型 来表示,它包含了机器人在某一时刻的位姿(Pose)和速度(Twist)信息,以及对应的置信度(协方差)。下面按照消息的结构逐字段解释其含义。1. Header headerheader.seq(uint32):消息序号(ROS 内部自动维护,一般用于调试排序)。header.stamp(time):时间戳,表示此里程计数据对应的系统时间。通常由发布节点填入当前采样时刻,例如 。在多传感器融合或可视化时,很关键,用于对齐不同传感器数据。

2025-06-04 22:35:49 995

原创 路径规划算法总结:从 Dijkstra 到 A* 与 Hybrid A

Dijkstra 算法是一种,用于在加权图中寻找单源最短路径。

2025-04-29 16:10:43 897

原创 DQN在Gym的MountainCar环境的实现

在本次实验里,我构建了DQN和Dueling DQN,并在Gymnasium库的MountainCar环境中对它们展开测试。我通过调整训练任务的超参数,同时设计不同的奖励函数及其对应参数,致力于获取更优的训练效果。最后,将训练结果进行可视化处理并加以比较。

2025-04-20 13:00:56 1297

原创 将一个新的机器人模型导入最新版isaacLab进行训练(以unitree H1_2为例)

里面配置了Isaaclab收录的所有宇树机器人,但是。中找到了机器人们的配置文件,其中有一个文件为。,在IsaacLab中也要写一个对应的。目录下执行训练脚本,就可以开始训练啦。,然后对里面的文件进行一定的更改。的关节,写一段config插在。中可以看到宇树的机器人训练环境。

2025-04-02 19:52:21 2568 2

原创 Ubuntu20.04系统安装IsaacSim4.5与IsaacLab环境

今天用自己的Ubuntu20.04系统安装最新更新的IsaacSim 4.5 与 最新版的IsaacLab遇到了问题,成功解决。IsaacSim现在支持,我用中文整理了自己的安装过程。

2025-03-25 22:51:31 2674

原创 【动手学具身智能】legged_gym项目实践(一)启动训练与测试结果

本文将会记录与讲解使用legged_gym上手实践训练机器人的操作步骤。

2025-03-07 11:03:03 4071 7

原创 【动手学具身智能】legged_gym项目代码阅读

legged_gym提供了用于训练ANYmal(和其他机器人)使用NVIDIA的Isaac Gym在崎岖地形上行走的环境。它包括模拟到真实传输所需的所有组件:执行器网络、摩擦和质量随机化、噪声观测和训练过程中的随机推送。其中该项目需要用到Isaac_gym(已停止维护)与rsl_rl1.2.0(大版本已不是最新),可能更适合用于学习。legged_gym/├── envs/ ├── scripts/ ├── utils/ ├─

2025-03-01 11:29:08 4073

原创 现代光学基础6

定义:利用半导体材料通过电注入泵浦产生激光的器件。市场份额:约占当今商用激光器的99%。效率:壁插效率高达40-50%,远高于其他类型激光器。定义:未达到激光阈值的激光器件,通过自发辐射发光。特点:每个模式中的光子数远小于1,受激辐射可忽略。

2025-01-04 22:15:17 997 2

原创 现代光学基础5

光探测器与太阳能电池是光电技术的重要应用领域,各自面临独特的技术挑战和研究方向。光探测器关注高灵敏度和低噪声的光信号检测,通过优化电路连接、材料和检测技术提升性能。太阳能电池则致力于提高能量转换效率、降低成本和扩大应用范围,通过多结设计、低成本材料和仿生结构实现技术突破。理解其工作原理、关键技术和解决方案,有助于在相关领域的学习和应用中取得更好的成绩。

2025-01-04 22:10:14 965

原创 现代光学基础4

总结自老师的讲义。

2025-01-04 22:06:21 1245

原创 现代光学基础-3

非线性光学研究光与物质相互作用时,材料的极化响应不再与电场强度成线性关系的现象。在高光强条件下,材料的极化强度 $ \vec{P} $ 不仅依赖于电场 $ \vec{E} $ 的一次项,还包括二次、三次等高阶项。这些非线性效应在激光技术、光通信和光子学等领域具有广泛应用,如频率转换、自聚焦效应和光学参量放大等。举例:在激光加工中,利用高强度激光通过非线性光学效应改变材料性质,实现切割或焊接。

2025-01-04 21:59:20 984

原创 现代光学基础2

激光(Laser)是一种通过受激辐射产生的高度相干、单色性和方向性的光源。激光器根据增益介质的不同,可分为多种类型,包括红宝石激光器、固体激光器、光纤激光器、气体激光器和半导体激光器。激光类型:红宝石激光器、固体激光器、光纤激光器、气体激光器、半导体激光器。工作原理:各类激光器通过不同的增益介质和泵浦方式实现粒子数反转与激光发射。应用领域:从工业制造到通信、医疗和消费电子,激光技术广泛应用于多个领域。关键技术:锁模技术、法拉第效应隔离器、掺铒光纤放大器等,提升激光器性能与应用范围。

2025-01-04 21:51:43 725

原创 现代光学基础-1

激光器(Laser)一种自振荡器,通过受激辐射产生相干光。LASER缩写自“Light Amplification by Stimulated Emission of Radiation”,即“受激辐射光放大器”。由爱因斯坦提出受激辐射概念,Gordon Gould命名为LASER。光学谐振器(Optical Resonator)限制并存储特定频率的光,通过反馈机制实现光的多次循环与增强。类比:回声室中的声音反射。F-P谐振器(Fabry-Perot Resonator)

2025-01-04 21:43:09 1151

原创 【论文阅读】TOWARDS THE GENERALIZATION OF CONTRASTIVE SELF-SUPERVISED LEARNING(人工智能之自监督对比学习的泛化性理论)

论文信息标题TOWARDS THE GENERALIZATION OF CONTRASTIVE SELF-SUPERVISED LEARNING发表刊物ICLR 2023论文动机论文领域论文所聚焦的深度学习方法是自监督对比学习。自监督学习是表示学习的一种方法,而表示学习的目标是从数据中自动提取特征。自监督学习作为表示学习的重要分支,近年来在计算机视觉和自然语言处理等领域取得了显著的进展。然而,尽管自监督学习在实际应用中表现优异,其理论基础仍不够完善,特别是在理解为何对比学习能够有效捕捉数据的

2025-01-03 11:07:08 695 1

原创 数字信号处理(Digital Signal Procession)总结

相比于DTFT,CTFT在计算机当中的做法就是用DTFT实现CTFT的效果,但是多乘了个。在时间序列的最后进行zero_padding,可以增加点数且不改变频率信号的形状。在数字信号处理当中,任何信号的傅里叶变换都以奈奎斯特区间为周期,奈奎斯特区间为。使用时需要注意:传进去的数组必须是[零频率项,正频率项,负频率项]做FFT,做完之后,通过fftshift将零频率移到数组的中间。同时要准备好hanmming窗函数的积分,用于观察幅值变换。不能将fftshift过的数组传进去。为数字角频率,范围为。

2024-11-23 21:08:13 1284 1

原创 如何简便改文件名

在出OI题的时候,有时候想要方便地把输入输出文件的文件名都改掉,类似于将a1.in,a2.in,…,a50.in都改成b1.in,b2.in,…将这个代码放在要改名字的输入输出文件的同目录下,base_name写上原文件名,new_name写上新文件名,num_files写上文件个数。然后在文件所在文件夹进入终端,运行类似于。我用gpt写了一个python代码。这个需要你拥有python环境。

2024-08-02 23:23:26 620

原创 dpkg: 处理归档 /var/cache/apt/archives/python3-catkin-pkg-modules_1.0.0-1_all.deb (--unpack)时出错: 正试图覆盖

ros开发者。起因是我重装了ubuntu系统后,重新配置的ros环境可能比较混乱,一个项目catkin_make无法成功,打算装colcon,但是出现如下错误。应该是装colcon的时候某个包跟catkin重了。

2024-06-05 16:18:05 1288 4

原创 【Unity2D像素风格小游戏】期末考考完,和搭档一个月从零开始的Unity速成作品!

自学unity的过程是很艰难的,前期现在B站肝了一个14小时的新手教学,后来跟了一个魂斗罗的项目,在正式制作过程中,我们碰到了数不清的问题。unity是一个很大型的软件,也是我目前所接触到的最大的软件(跟unity差不多的,SolidWorks也是一个很大且难度很高的软件,我因为之前上课学了一点点,但真的很难学),我们到现在为止肯定仍然只是掌握了皮毛,但也是非同凡响了。我写了很多代码,但是没有写注释的习惯,虽然我自认写的代码结构非常清晰,变量简便易懂,逻辑并不晦涩,但是仍然不利于合作。

2023-07-13 22:10:11 1227 1

原创 【题解】LuoGu9352:[JOI 2023 Final] Cat Exercise

首先,发现这道题目研究的是每个猫爬架的高度,而非每个猫爬架的序号。所以可以这样建树:如果有一条边两端的点为。的节点为根建树,猫位于根上。为若以u为根建树,走向v这棵子树最终会停留在。可以写出一种另类的树形dp。然后研究一下猫会怎么走。由题意,假如先以高度为。从小到大枚举猫爬架,

2023-07-12 14:49:43 524

原创 【题解】CF1746F:Kazaee

星战那道题目,需要动态增删有向边,动态维护是否每个点的出度为1,但是那道题目有一个操作是对一个点,删除所有终点为该点的有向边,使得维护每个点出度的复杂度大大提高。那道题目转而维护每个点的入度,因为删除所有终点为该点的有向边可以用O(1)更改该点的入度。只不过星战是每个数出现次数为1,本题是区间内不同的数出现次数为k的倍数。如果这个区间所有的不同数出现次数都为k倍数,那么不管怎么随机,区间和一定为k的倍数。哈希了之后,如果区间和不是k的倍数,那么这个区间一定有某个数出现次数不是k的倍数。

2023-06-29 23:24:12 345

原创 【题解】LuoGu8642:[蓝桥杯 2016 国 AC] 路径之谜

做一个从起点(1,1)到终点(n,n)的dfs,做的时候时刻更新两排靶子的数字,看起来时间复杂度很高,其实因为靶子的缘故,有很多很多路径是不可能实现的。所以就一个小小的剪枝就可以了。

2023-01-13 19:36:14 455

原创 【题解】LuoGu8816:[CSP-J 2022] 上升点列

本来我们是顺序选取物品,那么如果现在物品之间需要满足一种拓扑关系,或者是说想要选取物品b,必须先选取物品a这样的关系呢。这是一个树形dp,想要选课a,必须要选课b,将选课关系建成一棵树,做树形dp就是这道题目的做法。这道题物品之间只需要满足坐标不降,关联两个物品就需要欧几里得距离的重量,价值就是点数。这道题可以把课看成物品,课本身算作重量,一门课的重量就是“1”,物品的价值在这边就是课的得分,背包问题中是由。每个点就是一个物品,用的附加点的数量就是重量,能不能理解?都有背包问题的影子,都可以算作我提出的。

2023-01-12 11:19:21 1014

原创 【题解】LuoGu8815:[CSP-J 2022] 逻辑表达式

这道题目看起来是大模拟,用大模拟也可以做,但是有更好的方法去做。在考前我想到了很多可能考的东西,唯独没有想到考模拟。我经历的,模拟最早可以到2017年提高组的第二题,《时间复杂度》,也是话题量特别大,很多人花了很多时间在这道题目上面。普及组的第三题向来是有东西的。2017年普及组第三题就比较难,我当时也是只拿了50分。2018年普及组第三题更是直接考了很难的dp,比2022年的第四题可要难上不少啊。,我们可以给输入分一个层次,想到先算括号,那么对于同级的形如。这是我一开始的想法,就是顺着题目的思路往下做。

2023-01-12 10:49:45 765 1

原创 【题解】LuoGu8814:[CSP-J 2022] 解密

decode解密在上个世纪充分运用在谍报里面。我高中的时候看过一本麦家写的《解密》,推荐给大家。普及组第二题还是数学题,虽然我不敢说这是考向,但是数学思维还是非常重要的。下面是我手写的题解。

2023-01-11 11:24:05 496

原创 【题解】LuoGu8813: [CSP-J 2022] 乘方

17年18年提高组的第一题都是赚足了眼球,满是话题。18年第一题是一道贪心,甚至是13年提高组的原题,但就是很多人花了很多时间才解决。就算解决了,也用了很多奇怪的算法和做法,这在考场上面就十分不值得。现在提高组变成了四道题目,那么提高组的第一题的定位肯定没有六道题的时候的第一题简单了。在CSP2022之前牛客的模拟赛第一题都是雷打不动的字符串简单模拟,非常的敷衍和苍白。虽然普及组的第一题肯定是来送分的,但是我们不能轻视这一题。你可能会说我在钻牛角尖,但是这道题目用了快速幂和不用快速幂是两个不同的思路。

2023-01-11 10:54:19 706

原创 王安石改革新论

王安石改革新论陈思王不契于时代的改变终会被淘汰,不论是落后于时代,抑或是超前于时代。任何高贵的原则终会沦为世俗的玩具。王安石乃千古哲人,不管是在文学上为“唐宋八大家”之一,还是政治上开展了历史上引人瞩目的“熙宁变法”,今人都能从其身上体察到他绝伦的智慧与超凡的才能,纵然变法最后走向虚无,成果湮灭无存,今人从其身上,从王安石身处的那个时代上头,还能把握、总结出社会的运行规则与时间无形的大道。王安石在宋神宗熙宁元年以宋神宗的大力支持走向台前推行新法,其政策的中心思想是“理财”。早在宋仁宗的嘉祐五年,王

2021-07-25 19:09:37 553 2

原创 【学习笔记】一类比较问题

本文介绍3类比较问题1、逆序对问题:一列数7 3 2 1 6 8 4 5,每次操作可以任选两个相邻的数交换,问最少几次操作使得数列升序?答案等于数列逆序对数定义逆序对:一列数{a}中对于i<j,ai>aji<j,a_i>a_ji<j,ai​>aj​,称(ai,aj)(a_i,a_j)(ai​,aj​)为一个逆序对简要证明:假如我现在是一个人工智能,我的目标使得操作数最小。每次操作肯定是做收益最高的。每次操作我都可以令数列的逆序对数-1因为一列数不是有

2021-02-23 22:12:03 430 3

原创 【学习笔记】逐位确定

有一类的题目,可以高位贪心。我们要求的答案需要高位最优

2020-12-04 18:32:17 260

原创 【题解】自己口胡的一道题目

因为从现在到联赛之间我都没法写代码了,我只能用手机看我的博客,看到一道题目,想到强化。这道题目

2020-12-04 16:08:15 377

原创 NOIp2020游记

Day 0离退役还有一天,昨天我们班的篮球赛还输了,我说我们班少了两个主力把冠军让给隔壁班,他们胜之不武,而且我们两个班本来就是一家人,这没什么的,王者要有王者的风度。我就这么跟同学们说,但是我却还是最愤怒的一个人。今天欧阳老师继续讲论语,他与欧阳修同宗。他是一个很受中国儒家思想的一个人。他在课前讲到了他十年前的一个学生,能在期中考考五门满分,物理国集rk2,但是因为清北学校之间的问题他没能进入国家队,这真的是我们学校历史以来最优秀的几个人之一了。欧阳老师说这位学长在清华读了八年,把博士读出了,结果老师

2020-12-04 13:11:47 1381

原创 【学习笔记】课题研究:并查集的维护

这个是我以前的一个总结并查集是用来维护连通性的,维护连通性的同时,我们还可以维护连通块里面其他的信息最普遍的用法是kruskal求最小生成树。这个是按照边长度排序,然后维护连通性然后是这道题求∑所有路径中边长max−min\sum 所有路径中边长max-min∑所有路径中边长max−min就先按照边长排序,然后边长满足递增或递减性,另外维护连通块元素的个数用来求方案数再来一道题题目转化成了序列,我就化归成上一道题目的链的形式水箱我们需要在连通块内维护高度,dp值这道题目把维护连通块信

2020-12-04 12:08:35 405

可莉 逃跑的太阳 动态桌面.apk

可莉 逃跑的太阳 动态桌面.apk

2022-09-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除