自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 资源 (14)
  • 收藏
  • 关注

原创 我的2025开挂实录!用AI编程,我干成了这些以前想都不敢想的事!

用cursor去SDK的demo代码,然后用ROS2进行21个电机的驱动封装,使用python写一个脚本发出挥手动作的电机角度。4、花了一周的时间弄懂了如何用unity获取VR手柄的数据,并且打包安卓程序安装到VR上,在PC端接收到VR手柄的位置和旋转。前一张图是cursor给我的2025年使用的总结,第二张图是我用deepseek解读使用22.2亿tokens的解读。5、复现了很多新的具身智能模型,以前需要一周才能复现的工作,现在只需要1天的时间。6、用AI写强化学习的教程,教程的入门要求是高中水平。

2025-12-25 20:06:18 118

原创 AI编程一年最完整的总结

一个常见的错误是直接使用模糊的提示开始代码生成。在我的工作流程中,以及许多其他人的工作流程中,第一步是。

2025-12-23 10:34:35 809

原创 目标导向的强化学习与HER算法详解

强化学习(Reinforcement Learning, RL)🐕智能体(Agent)= 小狗🎯环境(Environment)= 你家的客厅🎮动作(Action)= 小狗的行为(坐下、握手、趴下)🏆奖励(Reward)= 你给小狗的零食(做对了+1分,做错了-1分)📍状态(State)= 小狗当前的位置和情况智能体通过与环境交互,尝试不同的动作,根据获得的奖励来学习"什么情况下应该做什么动作"。就像你学骑自行车:一开始不知道如何平衡(随机尝试)摔倒了(负奖励)保持平衡了(正奖励)

2025-12-12 13:56:51 808

原创 ACT模型框架与训练流程分析

VAE编码器(VAE Encoder): 使用Transformer Encoder,将动作序列编码到潜在空间VAE解码器(VAE Decoder): 使用Transformer Decoder,从潜在空间解码出动作序列KL散度(Kullback-Leibler Divergence),也称为相对熵(Relative Entropy),是衡量两个概率分布之间差异的度量。KL散度的性质 / Properties of KL Divergence:非负性 / Non-negativity。

2025-12-01 17:00:01 634

原创 扩散模型简介:The Annotated Diffusion Model

andby OpenAI,by Google Brain. 中文:在这篇博客里,我们将深入了解(DDPM,也叫扩散模型、得分基生成模型或[自编码器]),因为研究人员已经凭借它们在条件/无条件的图像、音频和视频生成中取得了惊人的成果。撰文时的代表案例包括 OpenAI 的 [GLIDE] 和 [DALL·E 2]、海德堡大学的 [Latent Diffusion],以及 Google Brain 的 [ImageGen]。

2025-12-01 10:38:03 737

原创 【论文阅读】世界模型发展脉络整理---Understanding World or Predicting Future? A Comprehensive Survey of World Models

世界模型(World Models)理解世界机制:构建内部表示以理解环境的运作规律预测未来状态:预测环境的动态变化以指导决策世界模型是智能体(Agent)对环境的内部表示或模拟,用于:预测环境的动态和结果理解环境的结构和规律支持决策和规划观察模型- 从状态生成观察奖励模型- 预测奖励终止模型- 预测episode是否结束年份里程碑贡献1989Dyna架构结合模型学习和规划1990世界模型概念提出AI应具备世界认知2018World Models论文VAE-RNN范式,梦境训练2019。

2025-11-20 20:37:55 1215

原创 一文看懂PPO入门教程:从场景到代码实现,高中水平即可

在强化学习的数学模型中,有几个关键函数需要明确定义。理解这些函数的输入和输出,对于理解整个算法至关重要。函数之间的关系策略函数:π(a|s) → 动作概率分布↓动作函数:a ~ π(·|s) → 实际动作↓环境交互:执行动作a,获得奖励r和下一状态s'↓价值函数:V(s) 和 Q(s,a) → 评估状态和动作的价值↓优势函数:A(s,a) = Q(s,a) - V(s) → 评估动作的优势↓策略更新:使用优势函数更新策略函数关键公式状态价值与动作价值的关系优势函数的定义。

2025-11-20 15:04:50 821

原创 小试牛刀:Flow Matching + PPO 结合架构

传统PPO的局限无法表达多模态动作分布(如抓取任务的多种可行路径)探索能力受限,依赖熵正则化Flow Matching的优势可以学习复杂的多峰分布基于连续归一化流,表达能力强推理速度快(5-10步ODE求解)关键挑战PPO需要计算log π(a|s)用于策略梯度Flow Matching是隐式生成模型,没有显式概率密度如何计算对数概率是最大技术障碍✅ 理论保证Flow-Noise基于Normalizing Flow理论对数概率计算有数学保证不依赖近似或启发式方法✅ 端到端训练整个系统可微分。

2025-11-20 10:59:55 1013

原创 PPO入门教程:从数学推导到代码实现(高中数学基础就可以看懂)

状态(State):你当前的情况(车把角度、速度、平衡情况)动作(Action):你采取的行动(向左转、向右转、加速、减速)奖励(Reward):你得到的反馈(保持平衡+1分,摔倒-10分)策略(Policy):你学习到的"经验"(在什么情况下应该做什么动作)强化学习就是让计算机(智能体)通过不断尝试,学习到最优的策略,从而在环境中获得最大的累积奖励。重要性采样(Importance Sampling):用旧策略的数据来估计新策略的期望值问题:我们想计算新策略的期望值,但只有旧策略的数据解决方案。

2025-11-20 10:28:31 741

原创 π*0.6论文创新点分析:对比传统VLA算法

1. **部署策略收集数据** → 2. **数据聚合与奖励标注** → 3. **微调价值函数** → 4. **计算Advantage值** → 5. **策略改进(Advantage Conditioning)** → 6. **性能评估与迭代决策**| **优势机制** | Flow-Noise | 标准RL | Advantage-conditioning | ✅ 更简单 || **策略更新** | 无 | **价值函数微调 + Advantage Conditioning** |

2025-11-19 14:25:08 635

原创 【论文阅读】清华大学最新具身智能综述:从大语言模型到世界模型

该论文提出了一种联合多模态大语言模型(MLLM)和世界模型(WM)驱动的架构,旨在推动具身智能(Embodied AI)迈向通用人工智能(Artificial General Intelligence)。该方法将MLLM的语义推理能力与WM的物理感知预测能力相结合,克服了实时适应和物理基础方面的局限性,从而使智能体在动态环境中变得更强大和适应性更强。

2025-10-22 11:18:02 951

原创 【论文阅读】DiffusionDrive:截断扩散模型用于端到端自动驾驶

DiffusionDrive引入了一种用于端到端自动驾驶的截断扩散模型,通过解决计算开销和模式崩溃问题,实现了实时多模态轨迹生成。该系统在NAVSIM数据集上创造了新的性能记录,以45 FPS达到88.1 PDMS,同时生成多样化且合理的驾驶动作。

2025-10-21 16:19:45 709

原创 【论文阅读】具身竞技场:面向具身智能的全面、统一、演进式评估平台

论文题目: Embodied Arena: A Comprehensive, Unified, and Evolving Evaluation Platform for Embodied AI论文地址:https://arxiv.org/pdf/2509.15273来自包括天津大学和华为诺亚方舟实验室在内的全球联盟研究人员开发了Embodied Arena,这是一个评估具身人工智能(Embodied AI)代理的综合平台,其特点是具有系统的能力分类和自动化的、由LLM驱动的数据生成流水线。

2025-10-10 09:46:52 988

原创 【论文阅读】具身人工智能:从大型语言模型到世界模型

本文全面综述了具身人工智能领域的现状,特别强调了整合多模态大语言模型(MLLM)和世界模型(WM)的协同潜力。它提出了一种联合MLLM-WM驱动的架构,以克服各自的局限性,并推进具有物理基础和语义智能的智能体。

2025-09-28 10:36:07 1354

原创 【论文阅读】纯视觉语言动作(VLA)模型:全面综述

调查论文《纯视觉语言动作(VLA)模型:综合综述》对新兴的VLA模型领域中三百多项近期研究进行了结构化分类和系统回顾。VLA模型整合了视觉感知、语言理解和机器人控制。该论文整合了基础资源,分析了其在各种机器人实体中的应用,并指出了实现通用机器人技术的关键挑战和未来研究方向。

2025-09-25 22:20:21 1221

原创 【论文阅读】AutoDrive-R^2: 激励自动驾驶VLA模型的推理与自我反思能力

自动驾驶系统已从传统的模块化流水线发展到集成式端到端方法,其中视觉-语言-动作(VLA)模型代表了最新的进展。然而,当前自动驾驶中的 VLA 模型面临关键挑战:它们经常生成物理上不可行的轨迹,并且在复杂的驾驶场景中难以进行充分的推理。AutoDrive-R² 通过一个全面的框架解决了这些局限性,该框架增强了自动驾驶系统的推理能力和物理可行性。图 1:AutoDrive-R² 框架概述,展示了完整的框架以及不同模型之间的比较结果,证明了在轨迹预测任务中的卓越性能。

2025-09-22 20:45:15 1046

原创 【论文阅读】OpenDriveVLA:基于大型视觉语言动作模型的端到端自动驾驶

传统上,自动驾驶技术依赖于模块化系统,这些系统将感知、预测和规划分离成不同的组件。虽然这种方法有效,但可能会导致模块之间的误差传播,并且难以应对需要综合推理的复杂场景。大型语言模型(LLM)和视觉语言模型(VLM)的最新进展已经显示出理解复杂场景和做出高级决策的潜力,但将它们直接应用于自动驾驶提出了重大挑战。图 1:OpenDriveVLA 模型的多阶段训练过程的概述,展示了如何通过分层特征对齐、驾驶指令微调、智能体-环境-自我交互和轨迹规划来集成视觉、语言和动作能力。

2025-09-22 20:40:49 1492 1

原创 【论文阅读】RynnVLA-001:利用人类示范改进机器人操作

由达摩院和湖畔实验室开发的 RynnVLA-001 引入了一种视觉-语言-动作 (VLA) 模型,通过对大规模人类第一视角视频演示进行预训练,改进了机器人操控。它在实际操作任务中取得了 90.6% 的平均成功率,超越了 GR00T N1.5 (55.6%) 和 Pi0 (70.4%) 等最先进的基线模型。

2025-09-22 15:33:38 1159

原创 【论文阅读】GR-1:释放大规模视频生成式预训练用于视觉机器人操控

ByteDance研究院推出了GR-1,一个GPT风格的Transformer,它利用大规模以自我为中心的视频生成预训练,在多任务视觉机器人操纵中实现了增强的泛化能力和数据效率。该模型在基准测试和真实世界任务中均优于现有基线,在未见场景和语言泛化以及有限机器人数据方面表现出鲁棒性能。

2025-09-22 14:27:57 1012

原创 【论文阅读】GR-2:用于机器人操作的生成式视频-语言-动作模型

开发能够理解自然语言指令并执行各种操作任务的机器人系统,仍然是人工智能和机器人领域的一项重大挑战。GR-2 (通用机器人代理 2) 通过将视频预训练与机器人动作生成相结合,以统一的模型架构,代表了该领域的重大进步。图 1:GR-2 的双重训练过程,展示了对各种人类活动的视频-语言预训练(左)和对机器人特定视频-语言-动作数据的微调(右)。GR-2 由字节跳动研究人员开发,建立在基础模型原则之上,这些原则已在自然语言处理和计算机视觉等其他领域证明是成功的。

2025-09-22 14:14:40 1021

原创 【论文阅读】理解世界还是预测未来?—— 世界模型全面综述

该调查将世界模型定义为旨在“理解世界动态并确定性(或在一定保证下)计算下一状态”的系统。这个总体目标被分解为两个相互关联但又独立的功能,构成了本文的分析框架。第一个功能是外部世界的隐式表示,侧重于模型如何通过潜在变量和学习到的表示来内化环境机制。这包括传统的基于模型的强化学习方法,其中准确的转换动态支持策略优化,以及大型语言模型作为世界理解强大骨干的出现。这些模型展示了跨越空间、时间、物理和社会动态的卓越“世界知识”。第二个功能是物理世界的未来预测,强调生成动态未来状态的能力。

2025-09-22 14:01:19 634

原创 【论文阅读】OpenVLA:一个开源的视觉-语言-动作模型

OpenVLA 代表着在使先进机器人AI更广泛地为研究社区所用方面迈出了重要一步。该论文介绍了一个70亿参数的视觉-语言-动作(VLA)模型,该模型能够使用自然语言指令和视觉观察来控制多个机器人实体。与现有最先进的闭源模型(如RT-2-X)不同,OpenVLA是完全开源的,提供了对模型权重、训练代码和微调过程的完整访问。图1:OpenVLA架构,展示了DINOv2和SigLIP视觉编码器融合后馈入Llama 2语言模型骨干,并输出离散化的机器人动作。

2025-09-22 13:52:47 1044

原创 【论文阅读】π0:用于通用机器人控制的视觉-语言-动作流模型

开发能够执行各种任务的机器人一直是机器人领域长期存在的挑战。传统方法通常需要为单个任务训练专门的策略,从而导致泛化能力有限,并且每项新能力都需要大量数据。π0(发音为“pi-zero”)模型通过创建一个通用机器人控制系统来解决这些限制,该系统能够跨不同的机器人平台执行各种操作任务。图 1:π0 模型架构,展示了预训练的视觉-语言模型(VLM)骨干网络如何处理视觉输入和语言指令,并通过动作专家模块生成机器人动作。

2025-09-22 13:50:01 1202

原创 【论文阅读】GR00T N1:面向通用人形机器人的开放基础模型

通用人形机器人的研究长期以来一直是机器人学研究的核心目标。传统的做法侧重于针对特定任务的专用系统,而基础模型方面的最新进展为创建多功能机器人智能提供了新途径。GR00T N1 代表着这一方向上的重要一步,它引入了一个专门为通用人形机器人设计的开放式基础模型。图1:GR00T N1 采用的分层数据金字塔策略,将网络数据和人类视频作为基础,合成数据作为中间层,以及真实世界机器人轨迹作为顶层,以解决机器人学中的“数据孤岛”问题。

2025-09-22 13:48:29 1077

原创 【论文阅读】4D-VLA:时空视觉-语言-动作预训练与跨场景校准

4D-VLA将4D时空信息整合到视觉-语言-动作(VLA)预训练中,解决了机器人操作中的坐标系混乱和状态混乱等问题。该模型在LIBERO基准测试中实现了12.1%的更高成功率,并在真实世界任务中展现了强大的泛化能力,提高了控制和精度。

2025-09-22 13:43:54 863

原创 【论文阅读】Long-VLA:释放视觉语言动作模型在机器人操作中的长时程能力

Long-VLA引入了第一个专为长程机器人操作设计的端到端视觉-语言-动作(VLA)模型,采用相位感知输入遮罩策略来调整感知焦点。该模型显著提高了在模拟和真实世界环境中多步骤任务的成功率,优于现有最先进的方法。

2025-09-22 13:42:45 1148

原创 【论文阅读】Robix:机器人交互、推理与规划的统一模型

Robix 代表着在构建能够与人类在复杂、动态环境中自然交互的通用机器人方面迈出了重要一步。传统的机器人系统依赖于碎片化、模块化的方法,将推理、规划和交互分离成不同的组件,而 Robix 采取统一的方法,将所有这些能力集成到一个单一的视觉-语言模型中,作为分层机器人系统的认知层。该系统在分层架构中运行,其中 Robix 充当高级认知控制器,为低级执行系统生成原子命令,并为人机交互生成自然语言响应。这种设计实现了诸如主动对话、实时中断处理和上下文感知推理等复杂功能,这些功能远远超出了简单的任务执行。

2025-09-22 13:14:05 1020

原创 40岁从智驾转具身智能之路

我的工作经历比较复杂,本科毕业后工作2年再次读研的,本科和硕士都是机械专业,硕士毕业后干了5年CAM和机器人再转入到自动驾驶行业。在自动驾驶干了8年,发现自动驾驶已经到了一个瓶颈,再次转行做具身智能。我就谈谈自己的最近这次转型之路。

2025-09-19 21:50:13 367

原创 具身智能VR遥操开发记录

TeleVision主要是使用网络穿墙的方式,使用免费的次数有限制,而且我也不是专家,虽然获取到VR手柄的数据,但是每次都要在VR的网页上输入网址,最终放弃了,还被公司的防火墙监测到异常,给拦截了。最近自研的轮式双臂人形机器人需要有遥操设备,也看了很多家的遥操,一般是外骨骼的方式比较多,要么是有编码器与机器人关节进行映射,要么是发送末端位姿,基于时间和成本的考虑,决定自己用VR开发遥操。最终实现了可以接收到VR手柄的数据,包括手柄的位置、旋转和按键的状态。

2025-09-19 20:19:03 653 1

原创 完整强化学习教程:基于4x4网格世界的智能体探索之旅(二)

之前我们的小智只能选择离散的动作:上、下、左、右、不动。但现实中的很多任务需要连续的动作。例子:问题:传统DQN无法处理连续动作空间,因为:最简单的方法:将连续动作空间离散化。例子:假设小智可以选择移动的精确角度优点:缺点:思路:用函数近似器来处理连续动作。方法1:最大化优化方法2:NAF (Normalized Advantage Functions)最成功的方法:结合策略梯度和价值函数!这就是我们下一章要学习的内容!让我们扩展网格世界,使小智可以选择连续的移动方向和速度:动作空间:A={(θ,v)∣θ∈

2025-06-13 13:33:29 770

原创 完整强化学习教程:基于4x4网格世界的智能体探索之旅(一)

想象一下,有一个名叫"小智"的机器人,它被放置在一个神秘的4×4网格世界中。这个世界充满了挑战:第一部分:为什么我们需要强化学习?传统方法的局限性静态规划的问题不确定性的挑战最优化的需求自主学习的重要性这就是强化学习的用武之地! 强化学习让智能体通过与环境交互,在试错中学习最优策略。状态(State) 是对当前环境情况的完整描述。对小智来说,状态就是它当前在网格中的位置。我们用坐标 (x,y)(x, y)(x,y) 表示状态:状态空间定义:S={(x,y)∣x,y∈{1,2,3,4},(x,y)

2025-06-13 13:31:10 1216

原创 小白讲强化学习:从零开始的4x4网格世界探索

想象一下,我们有一个聪明的机器人小智,它被放置在一个4×4的网格世界中。这个世界的规则如下:为什么传统方法不够用?动态环境:如果环境经常变化(障碍物位置改变),预编程的路径就失效了不确定性:机器人的动作可能不总是成功(比如有10%的概率滑向其他方向)奖励优化:我们希望机器人不仅能到达目标,还要找到最优(最短、最安全)的路径自主学习:我们希望机器人能够自己探索和学习,而不是被告知每一步该怎么做这就是强化学习发挥作用的地方!强化学习让智能体通过与环境的交互,在试错中学习最优策略。**状态(Sta

2025-06-12 21:17:09 1082

原创 强化学习PPO算法详解:从零基础到公式推导

在状态s下,遵循策略π能获得的。

2025-06-12 11:31:44 1368

原创 联想Y7000+RTX4060+i7+Ubuntu22.04运行DeepSeek开源多模态大模型Janus-Pro-1B+本地部署

在笔记本电脑上手搓Deepseek最近开源的多模态大模型。

2025-01-29 15:50:23 3282

原创 具身智能VLA(视觉-语言-动作)入门+RTX4060+Ubuntu22.04

从2024年的11月20日开始到现在差不多有2个月,总结一下这段时间的VLA学习经历。

2025-01-15 22:42:35 1298 1

原创 DINOv2+Qwen2.5-VL-2B+LoRA实现image caption的微调

本文的打算是一步步的实现Diffusion VLA的论文思路,之前用ResNet50提取图像特征,现在换成了DINOv2。

2025-01-06 20:54:26 1388 1

原创 用ResNet50+Qwen2-VL-2B-Instruct+LoRA模仿Diffusion-VLA的论文思路,在3090显卡上训练和测试成功

想一步步的实现Diffusion VLA论文的思路,不过论文的图像的输入用DINOv2进行特征提取的,我先把这个部分换成ResNet50。先上代码,运行到后面还有个错误,还需要进一步的修改。

2025-01-03 22:30:20 673

原创 联想Y7000+4060显卡+16G内存+ubuntu22.04微调Qwen2.5-VL-2B

4060显卡LoRA微调Qwen2.5-VL-2B

2024-12-31 20:59:51 1146

原创 OpenMPI+CUDA实现并发计算

上面是实现的代码,可以保存为cu格式。

2023-05-08 15:07:20 1922

原创 Transformer自学代码+pth2onnx+onnx2trt

'P1': 12, '我1': 13, '有1': 14, '一1': 15,'个1': 16, '好1': 17, '朋1': 18, '友1': 19, '零1': 20, '女1': 21, '男1': 22, '。src_vocab = {'P': 0, '我': 1, '有': 2, '一': 3,'个': 4, '好': 5, '朋': 6, '友': 7, '零': 8, '女': 9, '男': 10, '。['我 有 零 个 好 朋 友。['我 有 零 个 女 朋 友。

2023-04-24 14:05:50 1747

小白讲强化学习:从零开始的4x4网格世界探索

小白讲强化学习:从零开始的4x4网格世界探索

2025-06-13

完整强化学习教程:基于4x4网格世界的智能体探索之旅

完整强化学习教程:基于4x4网格世界的智能体探索之旅

2025-06-13

完整强化学习教程:基于4x4网格世界的智能体探索之旅

完整强化学习教程:基于4x4网格世界的智能体探索之旅

2025-06-13

Multi-View 3D Object Recognition in Point Clouds

Multi-View 3D Object Recognition in Point Clouds

2017-05-22

Fast and Robust Multi-View 3D Object Recognition in Point Clouds

3D Object Recognition in Point Clouds

2017-05-22

Visual C++程序开发范例宝典(第3版)-part2(P301-600)

Visual C++程序开发范例宝典(第3版)的xps格式,win7自带的浏览工具可以打开。

2017-02-05

Visual C++程序开发范例宝典(第3版)-part1(P600-end)

Visual C++程序开发范例宝典(第3版)的xps格式,win7自带的浏览工具可以打开。

2017-02-05

Visual C++程序开发范例宝典(第3版)-part1(P1-300)

Visual C++程序开发范例宝典(第3版)

2017-02-05

VS2010调用QT Creator代码

文件包含了一个QT Creator的项目和vs2010的项目。

2015-11-13

斯坦福2014机器学习课程源代码

Andrew Ng开源课程的Octave源码

2016-04-13

任务栏托盘弹出菜单

一个简单的任务栏托盘demo。类似于360、QQ最小化时,会在任务栏的托盘中隐藏起来,右键单击托盘图标,就会弹出一个快捷菜单。

2017-02-05

c++贝塞尔曲线 c++贝塞尔曲线程序

c++贝塞尔曲线 c++贝塞尔曲线程序

2016-03-20

生成文件弹窗代码

生成一个文件弹窗

2017-03-22

Multiple View Geometry in Computer Vision

Computer Vision

2017-05-22

Learning From Data

真正公开课里面Hsuan-Tien的书。

2016-04-05

PCL-Introduction

PCL-Introduction

2017-05-22

启动EXE进程获取输出信息

启动EXE进程获取输出信息

2017-03-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除