A艾小白-优快云博客

原创具身智能论文阅读：NavCoT: Boosting LLM-BasedVision-and-Language Navigation via LearningDisentangled Reasoning

视觉与语言导航（Vision-and-Language Navigation, VLN）作为具身人工智能（Embodied AI）的关键研究问题，要求具身智能体（embodied agent）根据自然语言指令在复杂的3D环境中导航。近期研究通过提升导航推理的准确性和可解释性，突显了大型语言模型（large language models, LLMs）在VLN中的潜力。然而，它们主要以离线方式使用，通常面临VLN任务与LLM训练语料库之间存在显著领域差距（domain gap）的问题。

2025-10-26 12:42:31 1022

原创具身智能论文阅读：MC-GPT: Empowering Vision-and-Language Navigation with Memory Map and Reasoning Chains

在视觉与语言导航（Vision-and-Language Navigation, VLN）任务中，智能体需要按照自然语言指令导航到目标位置。尽管基于学习的方法一直是该任务的主要解决方案，但它们存在训练成本高且缺乏可解释性的问题。近年来，大型语言模型（Large Language Models, LLMs）因其强大的泛化能力，成为VLN任务中有前景的工具。然而，现有基于LLM的方法在记忆构建和导航策略多样性方面仍存在局限性。为了解决这些挑战，我们提出了一系列技术。

2025-10-26 12:00:58 1036

原创具身智能论文阅读：Robotic Control via Embodied Chain-of-Thought Reasoning

学习型机器人控制策略的一个关键限制在于其无法在训练数据之外进行良好的泛化。近年来，关于视觉-语言-动作模型（Vision-Language-Action models, VLAs）的研究表明，使用在大规模互联网数据上预训练的视觉-语言模型作为学习型机器人策略的骨干网络，可以显著提升其鲁棒性和泛化能力。然而，在其他领域中，大型视觉-语言模型最令人兴奋的能力之一，是其能够通过迭代推理解决复杂问题。那么，这种能力能否被引入机器人领域，使得策略在执行任务前能够通过推理来提升表现呢？

2025-10-25 17:04:17 1013

原创具身智能论文阅读-StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling

在真实世界环境中进行的视觉与语言导航（Vision-and-Language Navigation，VLN）要求智能体能够处理连续的视觉流，并基于语言指令以低延迟生成动作。尽管基于视频的大型语言模型（Video-based Large Language Models，Video-LLMs）推动了该领域的最新进展，但当前基于 Video-LLM 的 VLN 方法常常在精细化视觉理解、长时上下文建模以及计算效率之间面临权衡。

2025-10-21 20:52:51 1117

原创具身智能论文阅读：Nav-R1: Reasoning and Navigation in Embodied Scenes

具身导航要求智能体在复杂的三维环境中整合感知、推理和动作，以实现稳健的交互。现有方法通常存在推理痕迹不连贯且不稳定的问题，这限制了其在多样化环境中的泛化能力，同时也难以在实时导航中平衡长时域语义推理与低延迟控制。为了解决这些挑战，我们提出了 Nav-R1，一种统一具身环境推理的具身基础模型。我们首先构建了 Nav-CoT-110K，一个大规模具身任务逐步思维链（Chains-of-Thought, CoT）数据集，使结构化推理能够实现冷启动初始化。在此基础上，我们设计了一个基于 GRPO 的强化学习框架，包

2025-10-20 18:31:26 1223

原创具身智能论文阅读：A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning

生成动作：模型自回归生成数字 token → 拼成动作向量计算动作概率：每个 token 的概率相乘 → 得到动作整体概率 (\pi(a|s))PPO 更新计算策略比 (r_t = \pi_{\text{new}}/\pi_{\text{old}})用优势函数 (A_t) 构建 PPO 损失对 token logits 反向传播 → 更新模型参数输入输出输入：状态、任务描述、历史动作、参考轨迹输出：自回归 token 序列 → 解码为动作向量好处。

2025-10-19 22:44:44 471

原创具身智能论文阅读：CollabVLA: Self-Reflective Vision–Language–Action Model Dreaming Together with Human

这些数据包含配对的观测（observations）、多模态目标（multimodal goals）、轨迹（trajectories）和推理说明（rationales），在此阶段。

2025-10-18 21:40:27 535

原创具身智能论文阅读：OpenFly:A Comprehensive Platformfor Aerial Vision-Language Navigation

摘要本文提出OpenFly平台，旨在解决空中视觉语言导航（Aerial VLN）领域的数据稀缺问题。该平台整合了Unreal Engine、GTA V、Google Earth及3D高斯点云渲染多引擎支持，开发了自动化数据采集工具链，实现点云处理、语义分割、轨迹生成与指令标注的全流程自动化。基于此构建了包含10万条飞行轨迹的大规模数据集，覆盖18个多样化场景。同时提出OpenFly-Agent模型，引入关键帧感知机制优化视觉编码。实验表明，该平台与模型显著优于现有方法。所有工具链、数据集及代码将开源共享。

2025-10-18 16:41:16 1203

原创具身智能论文阅读：OpenVLA:An Open-Source Vision-Language-Action Model

将其替换为我们的动作标记。在动作被处理为一串标记后，OpenVLA 采用标准的。

2025-10-16 20:32:45 1397

原创具身智能论文阅读：自我进化代理人的调查：通往人工超级智能的道路(1)

涵盖四个主要类别——模型（Model）、上下文（Context）、工具（Tool）和架构（Architecture）；：区分测试内自进化（intra-test-time）与测试间自进化（inter-test-time），其实现途径包括上下文学习（ICL）、有监督微调（SFT）或强化学习（RL）；：以三大核心范式为中心——基于奖励的方法（reward-based）、模仿与示范的方法（imitation and demonstration）、以及基于群体的方法（population-based）。

2025-10-16 11:17:52 916

原创具身智能原理与实践书籍阅读笔记3----视觉辅助的操控技术

具身操控技术研究综述具身操控旨在让智能体通过物理交互完成各类任务，涉及本体控制、物体属性理解和环境约束处理。研究范畴包括直接物体操作、工具使用和复杂任务分解。本体形态涵盖单/双臂机器人、人型机器人、移动机械臂等，配备不同末端执行器。当前研究主要依托仿真平台（如LIRERO、CALVIN）和真实数据集（Bridge、RH20T、ARIO），其中ARIO通过标准化格式整合了303万轨迹片段。经典技术方案包括Transformer自回归动作生成（ALOHA-ACT、RT-1）、扩散模型（Diffusion Po

2025-10-11 11:40:17 941

weixin_72790221的博客

原创具身智能论文阅读：NavCoT: Boosting LLM-BasedVision-and-Language Navigation via LearningDisentangled Reasoning

原创具身智能论文阅读：MC-GPT: Empowering Vision-and-Language Navigation with Memory Map and Reasoning Chains

原创具身智能论文阅读：Robotic Control via Embodied Chain-of-Thought Reasoning

原创具身智能论文阅读-StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling

原创具身智能论文阅读：Nav-R1: Reasoning and Navigation in Embodied Scenes

原创具身智能论文阅读：A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning

原创具身智能论文阅读：CollabVLA: Self-Reflective Vision–Language–Action Model Dreaming Together with Human

原创具身智能论文阅读：OpenFly:A Comprehensive Platformfor Aerial Vision-Language Navigation

原创具身智能论文阅读：OpenVLA:An Open-Source Vision-Language-Action Model

原创具身智能论文阅读：自我进化代理人的调查：通往人工超级智能的道路(1)

原创具身智能原理与实践书籍阅读笔记3----视觉辅助的操控技术

原创具身智能原理与实践书籍阅读笔记2----视觉增强的导航任务

原创具身智能原理与实践书籍阅读笔记1----具身智能概述

原创 AS5600编码器PCB绘制

原创刚体（大学物理）

原创理解拉格朗日乘子法

原创直观理解法向量，梯度，梯度下降

原创 git简单操作

空空如也

空空如也