【具身智能机器人高级实战】第4章：驱动具身智能的关键算法原理（四）基础模型 (Foundation Models) 在机器人中的应用

VectorShift

已于 2025-08-15 19:20:36 修改

阅读量53

点赞数

CC 4.0 BY-SA版权

分类专栏：人工智能技术白皮书文章标签：人工智能机器学习机器人

于 2025-08-15 19:19:49 首次发布

本文链接：https://blog.youkuaiyun.com/VectorShift/article/details/150429423

人工智能技术白皮书专栏收录该内容

156 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

第一部分：原理详解

4.4.1 VLM/LLM as a Planner: 如何将自然语言指令转化为机器人可执行的动作序列

4.4.2 Fine-tuning: 在机器人特定任务上微调预训练大模型

第二部分：代码实现

示例1：VLM as a Zero-shot Planner (基于 LLaVA)

示例2：使用LoRA微调LLM以适配特定机器人任务

结论

基础模型，特别是大规模语言模型 (LLM) 和视觉语言模型 (VLM)，正以前所未有的深度和广度重塑人工智能领域。它们强大的泛化能力、上下文理解能力和推理能力为解决机器人学中长期存在的挑战——尤其是高级语义理解、长期任务规划和人机交互——提供了革命性的新范式。本手册旨在为该领域的研究人员提供一份深入的指南，剖析其核心原理并展示如何在实践中高效地应用这些模型。

第一部分：原理详解

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

VectorShift

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

具身智能机器人高级实战：从前沿理论到行业应用案例

VectorShift的博客

08-12

132

1.1.3 面向机器人的世界模型（World Models）与基础模型（Foundation Models）的探索（例如：NVIDIA。5.4.2 讨论与分析：如何将在仿真中训练好的模型部署到真实机器人上（硬件：如UR5, Franka Emika）1.1.2 视觉-语言-动作（VLA）模型：从像素到行动的端到端学习（例如：Google DeepMind。1.1.1 语言大模型（LLM）驱动的机器人任务规划（例如：Google PaLM-E, SayCan）

【大模型实战系列】导读从基础模型到具身智能的系统性学习路径

VectorShift的博客

08-09

979

具身AI（Embodied AI）标志着从“互联网AI”的范式转变，智能体不再仅仅从静态数据集中学习，而是通过传感器和执行器与物理环境进行实时交互，从第一人称视角（egocentric perception）进行学习。这种学习方式被认为是实现通用人工智能（AGI）的关键一步。

参与评论您还未登录，请先登录后发表或查看评论

从感知决策到具身智能的技术跃迁与挑战(基座模型与VLA模型)

06-11

1273

本文剖析AI与机器人融合的技术跃迁：从深度学习视觉突破、AlphaGo决策验证，到ChatGPT催生机器人“通用大脑”范式转移。核心聚焦VLA模型（Vision-Language-Action）的端到端架构，解析其三层能力——LLM任务规划、VLM环境感知、神经动作生成（代表工作：RT系列、DoReMi）。对比两条路径：拼接现有LLM/VLM的快速方案 vs 训练机器人专用基座模型的深度方案，揭示数据稀缺、物理建模、安全控制三大瓶颈。提出通过世界模型、仿真引擎、人机协同突破限制，预判人形机器人将依托VLA架

智能合约智能合约性能测试：测试智能合约的性能和质量

AI天才研究院

07-20

3548

作者：禅与计算机程序设计艺术随着区块链技术的飞速发展，各大公链上已经出现了众多的智能合约(Smart Contract)系统。这些系统能使得链上数据的不可篡改、可追溯、不可伪造等特征得以实现。但同时也带来了很多的复杂性和挑战，如何确保智能合约的运行性能、安全性能和正确性，成为业界关注的焦点。在智能合约的开发、测试、部署过

TensorRT笔记（5）：研究timingCache

ouliten的博客

12-02

454

在里出现了大量的timingCache，但是当时没有取研究这是干啥的，本文就来解析一下。样例都基于上面的文章。

向量嵌入：RAG系统背后的语义引擎

uncle_ll的博客

11-29

1386

向量嵌入技术将高维语义信息压缩为低维向量，使相似概念在向量空间中聚集。作为RAG系统的核心，嵌入质量直接影响语义检索效果。从静态词嵌入到动态上下文嵌入，技术不断演进，解决了多义词等难题。现代嵌入模型基于Transformer架构，通过对比学习优化检索性能。选型需考虑MTEB排名、语言支持等维度，并结合业务测试。未来趋势包括多模态融合、知识图谱增强和轻量化部署。嵌入技术已成为NLP领域的关键支柱，其优化对提升RAG系统性能至关重要。

人工智能领域博客

11-28

1850

摘要：本文详细解释了Spark Driver端与Worker端在OSS认证上的核心区别。Driver端通过Spark配置自动认证，而Worker端（独立Python进程）需显式提供认证信息。认证来源优先级为：1)Driver传递参数，2)环境变量，3)IAM角色。文章分析了架构差异导致的不同认证方式，并推荐从Driver传递认证信息的解决方案。当前实现已采用该方案，通过Spark配置或环境变量获取认证后传递给Worker进程，确保PyArrow能正确访问OSS数据。

07_Spring AI 干货笔记之提示词

在科技的浪潮中，我们寻找着创新的火种，在代码的海洋里，我们编织着智慧的网。腾飞开源，就是这样一个由技术精英汇聚而成的博客平台，我们致力于分享在Java、Python、IoT和人工智能等领域的最新研究成果和实战经验。在腾飞开源的博客上，你会看到紧跟技术前

11-30

1582

本文详细介绍了Spring AI中的提示词核心概念与API设计。提示词作为引导AI模型生成特定输出的关键输入，其结构从简单字符串演进为包含多角色消息的复杂形式。Spring AI通过Prompt和Message接口提供结构化提示词管理，支持系统、用户、助手等角色分配。PromptTemplate类实现动态内容渲染，并支持自定义模板引擎。文章还涵盖提示词工程的最佳实践与令牌机制，为开发者提供完整的提示词设计解决方案。

【LLM】DeepSeekMath-V2模型

发现问题，并解决问题，批判性思维

11-29

1172

研究问题：这篇文章要解决的问题是如何在大型语言模型（LLMs）中进行自我验证的数学推理。具体来说，现有的基于最终答案奖励的强化学习方法在数学推理中存在根本局限性，因为正确答案并不能保证推理的正确性，特别是在定理证明任务中。研究难点：该问题的研究难点包括：如何在不依赖最终答案的情况下验证推理的正确性；如何在生成和验证之间建立有效的迭代改进循环；如何在没有已知解决方案的开放问题上扩展测试时计算。相关工作：该问题的研究相关工作有：OpenAI的推理模型在定量推理竞赛中取得了显著进展；DeepMind的Deep

YOLOv8训练过程日志-深度解析

搏博的专栏

11-28

1023

特别值得注意的是不同类别的性能差异：phone类别的召回率达到0.462，明显高于car类别的0.286，这可能源于两个类别在训练数据中的分布差异、目标特征的明显程度等因素。值得注意的是，损失函数的下降过程并非单调的，而是存在一定的波动，这是梯度下降优化的正常现象。值得注意的是，虽然训练提前停止，但模型已经学习到了有意义的特征表示，这为后续的微调或迁移学习奠定了基础。的训练中，这些指标虽然数值较低，但这在小型数据集和有限训练时间的条件下是正常的，重要的是观察这些指标在训练过程中的变化趋势。

概率单位回归（Probit Regression）详解

拒绝AI玄学，只聊真技术▲

11-28

1035

概率单位回归（）是一种基于正态分布累积函数的广义线性模型，专门用于分析二分类因变量与自变量之间的关系。该模型假设事件发生概率服从标准正态分布，通过回归系数建立解释变量与概率值的线性关系，输出结果表现为0-1之间的概率值。Probit回归作为统计学和机器学习中的重要工具，通过连接概率世界和正态分布，为分析二元响应数据提供了强大的方法论基础。从Bliss在1934年开创性的工作到Rosett和Nelson在1975年的扩展，Probit模型已在经济学、医学、生态学和市场营销等多个领域证明了其价值。💡。

Product Hunt 每日热榜 | 2025-11-28

LaughingZhu的博客

11-28

540

Product Hunt 每日热榜 | 2025-11-28 Links 2.0 是一款全新设计的应用程序，旨在帮助你在各个设备之间保存、整理和查找链接。这款为 iOS 26 打造的应用引入了新的导航栏，全新的首页展示最近链接，增强的过滤功能，个性化的主题色，以及全新的设置界面和应用图标。它默认保护隐私，支持 iCloud 同步，使用起来无需注册账户或担心被追踪。

智镜随行：基于Rokid CXR-M SDK的智能眼镜无障碍辅助系统开发实践

Rqaqedamancy的博客

11-28

819

摘要：本文介绍了基于Rokid CXR-M SDK开发的视障辅助系统「智镜随行」，通过AR眼镜与手机的协同实现无障碍辅助功能。系统利用眼镜端采集第一视角图像与语音，手机端调用多模态AI模型（OCR、目标检测、大语言模型）进行环境理解，并将结构化信息通过TTS实时反馈给用户。采用三层架构设计，结合蓝牙/Wi-Fi双通道通信，实现低延迟交互。开发中严格遵循SDK接口规范，完成设备连接、图像处理、语音交互等核心功能模块，为视障人士提供实时环境感知与导航辅助，展示了Rokid生态在普惠科技领域的应用潜力。

AI学习笔记整理（25）—— 计算机视觉之目标检测

最新发布

斯丝2011的博客

12-02

668

•在feature map上滑动窗口•建一个神经网络用于物体分类+框位置的回归•滑动窗口的位置提供了物体的大体位置信息•框的回归提供了框更精确的位置。

抖音灵感重生计划

yesyesido的博客

12-01

715

水印不应是创意的终点，而是再创作的起点。

【模式识别与机器学习（16）】聚类分析【1】：基础概念与常见方法

hiliang521的博客

12-02

710

【模式识别与机器学习（16）】聚类分析【1】：基础概念与常见方法

2025年11月第3周AI资讯

心一信息

11-28

312

近期AI领域迎来多项重要更新：谷歌发布Gemini 3系列，强调速度和多模态能力；xAI推出Grok 4.1，增强推理与实时信息处理；ElevenLabs拓展至图像语音转换；ImagineArt 1.5提升图像生成质量。这些进展显示AI正加速向多模态、高效实用方向发展，2024年将成为超级应用竞争的关键时期。

（综述）视觉-语言模型研究

LJ1147517021的博客

11-28

1087

DeepSeek开源IMO金牌模型：AI数学垄断时代终结

点亮创新之光，照亮科研梦想

11-29

1302

DeepSeek开源数学大模型DeepSeekMath-V2在IMO级别问题上实现突破性进展。该模型具备自验证机制，通过"阅卷老师+督导"双重验证系统确保推理严谨性，在IMO2025、CMO2024等竞赛中达到金牌水平，并在Putnam2024获得118/120的超高分数。相比传统AI仅关注答案正确性，DeepSeekMath-V2创新性地采用"诚实奖励机制"，要求模型先自评再输出答案。其685B参数规模以较低训练成本（2048块GPU/2个月）实现全面超越GPT-5

人形机器人“大脑”解析：多模态大模型驱动具身智能进化

具身智能作为人工智能与机器人技术融合的全新发展阶段，标志着机器人从传统的感知与执行功能迈向具备自主认知、决策与进化能力的高级智能体。人形机器人作为这一领域的关键形态，被认为是未来智能终端的重要发展方向...

【具身智能机器人高级实战】第4章：驱动具身智能的关键算法原理（四） 基础模型 (Foundation Models) 在机器人中的应用

第一部分：原理详解

【具身智能机器人高级实战】第4章：驱动具身智能的关键算法原理（四）基础模型 (Foundation Models) 在机器人中的应用