自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 具身智能论文阅读:NavCoT: Boosting LLM-BasedVision-and-Language Navigation via LearningDisentangled Reasoning

视觉与语言导航(Vision-and-Language Navigation, VLN)作为具身人工智能(Embodied AI)的关键研究问题,要求具身智能体(embodied agent)根据自然语言指令在复杂的3D环境中导航。近期研究通过提升导航推理的准确性和可解释性,突显了大型语言模型(large language models, LLMs)在VLN中的潜力。然而,它们主要以离线方式使用,通常面临VLN任务与LLM训练语料库之间存在显著领域差距(domain gap)的问题。

2025-10-26 12:42:31 1022

原创 具身智能论文阅读:MC-GPT: Empowering Vision-and-Language Navigation with Memory Map and Reasoning Chains

在视觉与语言导航(Vision-and-Language Navigation, VLN)任务中,智能体需要按照自然语言指令导航到目标位置。尽管基于学习的方法一直是该任务的主要解决方案,但它们存在训练成本高且缺乏可解释性的问题。近年来,大型语言模型(Large Language Models, LLMs)因其强大的泛化能力,成为VLN任务中有前景的工具。然而,现有基于LLM的方法在记忆构建和导航策略多样性方面仍存在局限性。为了解决这些挑战,我们提出了一系列技术。

2025-10-26 12:00:58 1036

原创 具身智能论文阅读:Robotic Control via Embodied Chain-of-Thought Reasoning

学习型机器人控制策略的一个关键限制在于其无法在训练数据之外进行良好的泛化。近年来,关于视觉-语言-动作模型(Vision-Language-Action models, VLAs)的研究表明,使用在大规模互联网数据上预训练的视觉-语言模型作为学习型机器人策略的骨干网络,可以显著提升其鲁棒性和泛化能力。然而,在其他领域中,大型视觉-语言模型最令人兴奋的能力之一,是其能够通过迭代推理解决复杂问题。那么,这种能力能否被引入机器人领域,使得策略在执行任务前能够通过推理来提升表现呢?

2025-10-25 17:04:17 1013

原创 具身智能论文阅读-StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling

在真实世界环境中进行的视觉与语言导航(Vision-and-Language Navigation,VLN)要求智能体能够处理连续的视觉流,并基于语言指令以低延迟生成动作。尽管基于视频的大型语言模型(Video-based Large Language Models,Video-LLMs)推动了该领域的最新进展,但当前基于 Video-LLM 的 VLN 方法常常在精细化视觉理解、长时上下文建模以及计算效率之间面临权衡。

2025-10-21 20:52:51 1117

原创 具身智能论文阅读:Nav-R1: Reasoning and Navigation in Embodied Scenes

具身导航要求智能体在复杂的三维环境中整合感知、推理和动作,以实现稳健的交互。现有方法通常存在推理痕迹不连贯且不稳定的问题,这限制了其在多样化环境中的泛化能力,同时也难以在实时导航中平衡长时域语义推理与低延迟控制。为了解决这些挑战,我们提出了 Nav-R1,一种统一具身环境推理的具身基础模型。我们首先构建了 Nav-CoT-110K,一个大规模具身任务逐步思维链(Chains-of-Thought, CoT)数据集,使结构化推理能够实现冷启动初始化。在此基础上,我们设计了一个基于 GRPO 的强化学习框架,包

2025-10-20 18:31:26 1223

原创 具身智能论文阅读:A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning

生成动作:模型自回归生成数字 token → 拼成动作向量计算动作概率:每个 token 的概率相乘 → 得到动作整体概率 (\pi(a|s))PPO 更新计算策略比 (r_t = \pi_{\text{new}}/\pi_{\text{old}})用优势函数 (A_t) 构建 PPO 损失对 token logits 反向传播 → 更新模型参数输入输出输入:状态、任务描述、历史动作、参考轨迹输出:自回归 token 序列 → 解码为动作向量好处。

2025-10-19 22:44:44 471

原创 具身智能论文阅读:CollabVLA: Self-Reflective Vision–Language–Action Model Dreaming Together with Human

这些数据包含配对的观测(observations)、多模态目标(multimodal goals)、轨迹(trajectories)和推理说明(rationales),在此阶段。

2025-10-18 21:40:27 535

原创 具身智能论文阅读:OpenFly:A Comprehensive Platformfor Aerial Vision-Language Navigation

摘要 本文提出OpenFly平台,旨在解决空中视觉语言导航(Aerial VLN)领域的数据稀缺问题。该平台整合了Unreal Engine、GTA V、Google Earth及3D高斯点云渲染多引擎支持,开发了自动化数据采集工具链,实现点云处理、语义分割、轨迹生成与指令标注的全流程自动化。基于此构建了包含10万条飞行轨迹的大规模数据集,覆盖18个多样化场景。同时提出OpenFly-Agent模型,引入关键帧感知机制优化视觉编码。实验表明,该平台与模型显著优于现有方法。所有工具链、数据集及代码将开源共享。

2025-10-18 16:41:16 1203

原创 具身智能论文阅读:OpenVLA:An Open-Source Vision-Language-Action Model

将其替换为我们的动作标记。在动作被处理为一串标记后,OpenVLA 采用标准的。

2025-10-16 20:32:45 1397

原创 具身智能论文阅读:自我进化代理人的调查:通往人工超级智能的道路(1)

涵盖四个主要类别——模型(Model)、上下文(Context)、工具(Tool)和架构(Architecture);:区分测试内自进化(intra-test-time)与测试间自进化(inter-test-time),其实现途径包括上下文学习(ICL)、有监督微调(SFT)或强化学习(RL);:以三大核心范式为中心——基于奖励的方法(reward-based)、模仿与示范的方法(imitation and demonstration)、以及基于群体的方法(population-based)。

2025-10-16 11:17:52 916

原创 具身智能原理与实践书籍阅读笔记3----视觉辅助的操控技术

具身操控技术研究综述 具身操控旨在让智能体通过物理交互完成各类任务,涉及本体控制、物体属性理解和环境约束处理。研究范畴包括直接物体操作、工具使用和复杂任务分解。本体形态涵盖单/双臂机器人、人型机器人、移动机械臂等,配备不同末端执行器。当前研究主要依托仿真平台(如LIRERO、CALVIN)和真实数据集(Bridge、RH20T、ARIO),其中ARIO通过标准化格式整合了303万轨迹片段。经典技术方案包括Transformer自回归动作生成(ALOHA-ACT、RT-1)、扩散模型(Diffusion Po

2025-10-11 11:40:17 941

原创 具身智能原理与实践书籍阅读笔记2----视觉增强的导航任务

具身导航是智能系统在动态环境中实现高效安全运动的关键技术,包含感知、路径规划和控制三大模块。环境表示方法多样,包括栅格地图、特征地图、拓扑地图等,常采用混合方式提升性能。视觉SLAM通过传感器数据同步定位与建图,包含五个核心模块,其中深度学习技术正推动端到端和隐式生成SLAM的发展。视觉语言导航(VLN)作为新兴任务,要求智能体根据自然语言指令完成导航,其评价指标综合考量路径长度、导航误差、任务成功率和路径效率。

2025-10-10 22:10:00 566

原创 具身智能原理与实践书籍阅读笔记1----具身智能概述

具身智能技术综述摘要 具身智能指具备物理实体的人工智能系统,由多模态感知(视觉语言模型VLM)、规划决策(大语言模型LLM)和执行机构(机器人控制)三模块协同构成,强调本体与环境的交互学习。核心挑战包括三维视觉表示(显式体素/点云/网格与隐式SDF/NeRF)、强化学习框架(价值/策略学习)以及模仿学习(行为克隆/逆强化学习)。大模型技术(如Transformer位置编码)推动了感知与规划能力,但执行端的物理操控仍受限于数据稀缺与泛化难题。未来需整合离身与具身智能范式,优化Real2Sim循环。

2025-10-10 11:25:55 780

原创 AS5600编码器PCB绘制

(由于技术原因,联网搜索暂不可用)AS5600 系列是 ams AG(现为 Renesas 旗下公司)推出的磁性旋转位置传感器,不同后缀型号在封装、输出接口、温度范围或应用场景上存在差异。以下是和和:具体参数请以官方数据手册为准,建议通过 Renesas 官网或分销商获取最新信息。根据需求,选择最常用的AS5600-ASOT。

2025-02-12 11:58:51 1290

原创 刚体(大学物理)

在外力作用下形状和大小都不改变的物体。可以看作是由许多质点组成的质点系,每个质点称为刚体的质元(质量的微元),内部任意两个质元的距离不改变。

2023-04-06 17:14:12 9445 1

原创 理解拉格朗日乘子法

在学习svm(支持向量机)的时候有遇到这个概念,所有在这里对拉格朗日乘子法来做一下解释。

2023-04-03 09:37:42 264

原创 直观理解法向量,梯度,梯度下降

本质是线, 一般用参数方程来描述, 这一条线一共有三个维度信息。

2023-03-30 16:35:00 2957

原创 git简单操作

创建完仓库后,我们会赋予仓库每一个文件一个状态。如果是自己创建的项目,项目的每一个文件都是未被追踪的生成版本后,未被追踪的文件不会在版本里所以我们需要跟踪目录。

2023-03-24 11:52:55 153

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除