- 博客(41)
- 收藏
- 关注
原创 给机器人装上“人类双手”!北大等团队实现视触觉实时同步,抓取又快又准
在机器人操作领域,准确感知环境是完成任务的关键。目前的机器人往往面临一个难题:要么依靠摄像头“看”环境,但在接近物体时会被自己的手挡住视线;要么依靠触觉传感器“摸”物体,但必须接触后才有感觉。现有的技术很难让机器人同时具备这两种能力,通常需要在“看”和“摸”之间来回切换,或者因为背景干扰导致触觉感知失灵。为了解决这个问题,本论文提出了一个名为的新型传感器和一个名为的学习框架。这个框架通过一种全透明的“皮肤”和特殊的标记点设计,让机器人手指既能像眼睛一样看清物体,又能像皮肤一样敏锐地感知接触。
2025-12-30 15:43:31
819
原创 NeurIPS 2025 具身智能 spotlight 四大金刚,从代码策略到场景建模,全方位领跑科研!
在,多篇直指当前该方向的核心落地瓶颈:大语言模型(LLM)驱动的code-as-policies策略,在动态/部分可观测场景中因环境接地不足,任务成功率难以保障;现有具身世界模型缺乏物理感知,无法精准建模3D几何与运动动力学,导致生成内容脱离实际场景约束;Transformer基具身策略处理长时任务时,视觉输入易超出上下文限制,记忆效率与泛化性不足;多模态大语言模型(MLLM)的具身智能体,还存在视觉特征与文本语义接地薄弱的问题,感知准确性受限。
2025-12-04 17:47:31
698
原创 揭示GPT-5与人类的差距!李飞飞&李曼玲提出具身智能评估新基准ENACT:以VQA形式评估世界模型
ENACT将VLMs的具身认知评估转化为第一视角交互下的世界建模问题核心空间定义状态空间sss:元素为从模拟器底层状态GGG提取的符号场景图,场景图以“节点(物体/主体,如On(fridge))-边(关系,如OnTop(pen, desk))”结构表征场景语义;观察空间O⊂RH×W×3O⊂RH×W×3:机器人第一视角的RGB图像,记录环境视觉信息;动作空间AAA:元素为场景图差异atδstst−1atδstst−1。
2025-12-02 14:18:34
740
原创 港大联手原力无限推出RoboTidy:用3DGS解决家务机器人难题,开源!!!
RoboTidy的发布标志着具身智能研究范式的一次重要演进:从追求算法的迭代,转向算法与环境协同发展。通过引入3DGS技术,RoboTidy构建了前所未有的高保真仿真环境,并通过严谨的Sim-to-Real实验证明了其对于提升物理机器人能力的直接价值。学术界与产业界的深度融合,正在加速将前沿算法转化为真实世界的生产力。随着RoboTidy的代码和数据集逐步开放,具身智能领域将在一个更坚实的基座上,迎来新的发展机遇。
2025-11-28 15:22:35
735
原创 告别奖励函数:详解英伟达通用VLA×运控框架,一次搞定多模态机器人跑、跳、跪、爬
当前,虽然大语言模型和图像生成模型已经发展到万亿参数的规模,但人形机器人的控制技术却远远落后,模型规模小、行为单一,且训练过程需要大量人工设计的奖励函数,难以扩展。这种为特定任务手动设计奖励的方式,比如让机器人学会走路的奖励函数,并不能直接用于跳舞或格斗,导致每增加一个新能力,就需要重新设计一套复杂的系统,极大地阻碍了通用人形机器人控制技术的发展。为了解决这个问题,本文提出了一个。
2025-11-27 10:46:55
947
原创 把周末还给你:Sunday Robotics发布暖心管家Memo,斯坦福团队助力实现“家务自由”
硅谷黑马炸场!总部位于山景城的Sunday Robotics,2025年底刚从保密状态亮相就获3500万美元融资——由Conviction领投,Sarah Guo亲自站台!这家初创公司的灵魂人物,是斯坦福两位弃学创业的顶尖博士赵子豪(Tony Zhao)和迟宬(Cheng Chi),11月19日携家庭机器人Memo正式官宣!这个长得像Baymax的小可爱,藏着超戳人的愿景:以“猫级智能”融入家庭,把被家务霸占的周日还给你!这队有多牛?30人全栈自研团队,1年建基建、3个月训模型,从硬件到AI全程自主掌控。
2025-11-24 17:04:38
1114
原创 AAAI 2026 Oral | 清华SpatialActor:解耦语义与几何的机器人操控新框架
精确的空间理解是机器人与物理世界交互的基础。然而,现有方法常面临困境:基于点云的方法因稀疏采样损失细粒度语义;基于图像的方法将语义与几何特征纠缠,在真实世界常见的深度噪声干扰下,其性能会显著下降。此外,这些方法大多关注高层几何结构,忽略了对精确操控至关重要的低层空间线索。为解决这些问题,我们提出,一个为机器人操控设计的解耦表示框架。SpatialActor 的核心思想是将语义和几何信息彻底分离,并进一步将几何信息分解为高层结构与低层线索。
2025-11-20 16:27:27
984
原创 【3DV 2026】清华智源GaussianArt突破:3D高斯模型破解机器人仿真关键难题
未来的改进方向可以考虑引入物理约束或运动学先验,来规范化从一个状态到另一个状态的运动轨迹,解决极端运动下的参数学习问题。目前的主流方法通常是“两步走”:先分别重建物体在打开和关闭两种状态下的三维模型,然后再去比对这两个模型,猜测部件是如何运动的。实验证明,这种方法不仅显著提升了重建的精度,还能成功处理多达20个部件的复杂物体,远超以往方法的处理能力。,特别是在处理拥有大量运动部件的复杂物体时。,每个基元同时编码其所属的部件和运动方式,通过一个统一的优化过程,实现物体几何形状和部件运动的联合重建。
2025-11-18 15:14:49
771
原创 ICLR 2026 VLA 研究现状深度剖析
VLA 的定义在社区内出人意料地存在争议,尚未形成明确共识。近期一篇综述论文给出了一个广义定义:“视觉-语言-动作 (VLA) 模型是一个系统,它将视觉观察和自然语言指令作为必要输入,并可能整合其他感官模态。它通过直接生成控制指令来产生机器人动作。是否在某种类型的互联网规模视觉-语言数据上进行过预训练。VLA 是一个使用预训练骨干网络的模型,该骨干网络在互联网规模的视觉-语言数据上训练过,并随后被用于生成控制指令。
2025-11-07 16:23:51
1124
原创 不用繁琐调参!李飞飞团队MoMaGen:用极简数据,解决生成式AI的规模化落地难题
MOMAGEN 框架首先将数据生成过程形式化为一个约束优化问题。其目标是在满足一系列硬约束(Hard Constraints)的前提下,最小化一个由软约束(Soft Constraints)构成的成本函数L⋅L⋅。arg minat∈TL⋅s.t.st1fstat∀t∈T(系统动力学)Gkinstat≤0∀t∈T(运动学可行性)Gcollstat≥0∀t∈T(无碰撞)Gvissta。
2025-11-06 16:01:16
1168
原创 英伟达41页VLA框架:Alpamayo-R1凭“因果链推理”重塑端到端自动驾驶
这项研究为自动驾驶领域带来的启示是, 단순히模仿驾驶行为是不够的,赋予模型“思考”和“推理”的能力,是通向更高级别自动驾驶的关键路径。它展示了如何利用大型语言模型的推理能力来解决具身AI(如自动驾驶)中的实际问题,为后续研究提供了一个功能强大且可解释的框架。此外,如何让模型从更少的、更高质量的人类标注数据中学习到更强的因果推理能力,也是一个值得探索的方向。它利用一个强大的视觉语言模型(VLM)来理解场景并生成结构化的因果推理文本,然后基于这个推理结果,指导一个专门的解码器生成具体、可执行的驾驶轨迹。
2025-11-05 16:38:28
1283
原创 告别预训练:清华大学πRL实现机器人“在实践中进化”的通用解决方案
当前主流VLA模型的训练范式存在根本局限,尤其是对于以 π₀ 和 π₀.₅ 为代表的流式模型,其潜力远未被完全挖掘。监督微调(SFT)的瓶颈:SFT是当前VLA模型训练的基石,但它高度依赖大规模、高质量的专家演示数据。这类数据的采集成本高昂、周期漫长。更重要的是,通过SFT训练出的模型容易对演示轨迹产生过拟合,当面对训练数据中未见过的新任务或长序列任务时,性能会急剧下降,且模型无法通过与环境的动态交互进行自我优化。强化学习(RL)的适配困境。
2025-11-04 16:08:07
1188
原创 CMU 摘 IROS 2025 最佳学生论文奖,Neural MP 打破传统规划桎梏,百万级数据赋能,复杂环境规划快准稳!
该研究提出通用神经运动规划方法Neural MP,通过仿真大规模生成多样场景与专家数据,提炼出泛化性强的反应式神经策略,并结合测试时优化保障真实部署安全。在真实世界4类环境的64项任务中,其运动规划成功率较基于采样、优化、学习的主流方法分别提升23%、17%、79%,且规划速度远快于传统采样方法,能零样本适配未见过的场景与任务,突破了传统规划“从头生成”的效率瓶颈与纯神经策略的安全风险。
2025-11-03 16:35:06
836
原创 攻克“世界模型”最后难题!清华陈建宇×斯坦福Chelsea团队推出Ctrl-World让机器人学会“想象式”训练
现有的世界模型(在虚拟环境中预测未来的模型)虽然提供了一种可行的替代方案,但它们大多无法支持与现代机器人策略进行复杂的多步交互,存在着视角单一、控制精度不足和长期交互不稳定等问题。该模型的核心思路是:改造一个预训练的视频生成模型,使其能够理解并精确模拟机器人高频动作所带来的多视角视觉变化,从而创建一个可交互的、高保真的机器人虚拟测试环境。该模型通过在虚拟的“想象空间”中模拟机器人的动作结果,不仅能准确地评估机器人策略的优劣,还能通过生成成功的虚拟经验来指导机器人学习,最终将机器人策略的成功率。
2025-10-31 16:34:39
925
原创 VLA集体“翻车”!复旦邱锡鹏团队推出LIBERO-Plus,首次系统性评估揭示其脆弱真相
LIBERO-Plus首次系统性、细粒度地揭示了当前VLA模型在看似高分的背后,普遍存在着严重的鲁棒性缺陷。研究发现,模型对相机与机器人状态变化高度敏感,部分模型甚至在功能上退化,忽视语言指令,并过度依赖轨迹记忆。我们呼吁机器人学习社区超越单纯的“刷榜”,更加关注模型在动态、多变真实环境中的稳定性和可靠性,共同推动VLA模型迈向真正的通用智能。
2025-10-30 17:30:02
985
原创 Optimus的“天价手”:一只6000美元,寿命仅六周
马斯克的信誉分,恐怕连个共享充电宝都借不出来了。”一位深度参与特斯拉机器人项目的供应链人士如此评价道。这句略带调侃的话,精准地概括了供应商们对特斯拉 Optimus 人形机器人项目一再推迟的复杂心态。他们为这个价值数亿美元的潜在订单已投入巨额资源,却不得不面对其宏大愿景与工程现实之间的巨大鸿沟。
2025-10-29 15:28:54
965
原创 单卡30分钟,凭空造出272㎡世界!华为“世界模型”炸场来了
近日,华为公司联合上海交通大学与华中科技大学的研究团队,共同推出了一款名为的世界模型。该模型在3D室内场景生成领域取得了显著突破,能够构建面积高达1800平方米(对应19x39个区块)的超大规模虚拟室内环境,并实现了高效的生成速度——在单张NVIDIA A100 GPU上,仅需30分钟即可生成约272平方米的场景。更重要的是,WorldGrow生成的场景不仅具备照片级的真实感和外观细节,其内部的几何拓扑结构也是完全连贯的。
2025-10-28 16:54:56
554
原创 现代机器人学习入门:一份来自Hugging Face与牛津大学的综合教程开源SOTA资源库
随着机器学习,特别是多模态大模型技术的飞速发展,机器人学正在经历一场从经典范式向数据驱动范式的深刻变革。机器人学习(Robot Learning)已成为推动这一领域发展的核心支柱。为了帮助研究人员与实践者系统地掌握这一前沿领域,Hugging Face 与牛津大学的研究者共同撰写了一份全面的技术教程,并配套开源了基于 PyTorch 的机器人学习库。
2025-10-27 16:58:32
698
1
原创 别被表象骗了!特斯拉“放弃”遥操是假,Optimus与FSD的这场数据阳谋才是真
最近Business Insider关于“特斯拉放弃动捕遥操,改用视频数据训练Optimus”的报道引发行业热议,不少人将其解读为特斯拉对原有技术路线的全盘否定。但深入拆解特斯拉的技术演进轨迹、核心团队动作与第一性原理逻辑就会发现,这场转变绝非“非此即彼”的割裂式迭代,而是一场早有预谋的规模化战略升级。
2025-10-24 15:44:45
677
原创 ICLR 2025 | Sergey Levine团队 WSRL 横空出世:RL微调告别离离线数据,学习速度&性能双突破!
WSRL。这是他和Paul Zhou、Andy Peng等人共同完成的研究:在强化学习(RL)领域,现有范式常通过离线RL预训练后结合在线数据微调,但主流方法需持续用离线数据,存在效率低、成本高的问题。方法,证明微调离线RL初始化模型时无需保留离线数据。该方法先明确保留离线数据主要为避免在线微调初期因分布不匹配引发的价值函数骤降与“灾难性遗忘”,随后引入预热阶段,用预训练策略采集少量在线轨迹初始化回放缓冲区,桥接分布差异并校准离线Q函数。实验表明,WSRL无需离线数据,仍比现有算法实现更快速的学习与更优。
2025-10-23 17:26:00
924
原创 马斯克的“机器人困局”:激进决策踩坑、核心团队流失,Optimus为何陷入“至暗时刻”?
从电动车到SpaceX,马斯克的“激进与直觉”曾创造过奇迹——但在人形机器人领域,这种模式正遭遇前所未有的挑战。Optimus的困境,不仅是技术的困境,更是管理与战略的困境:当“第一性原理”被用来无视行业成熟经验,当“硬核文化”变成团队动荡的诱因,当“类人执念”导致硬件与软件脱节,即便有埃卢斯瓦米这样的顶尖工程师,也难以快速填补“决策失误”留下的坑。马斯克曾说:“革新整个行业并非胆小者所能承受。”但革新的前提,是尊重技术规律与团队价值——在“比电动车复杂百倍”的具身智能领域,“蛮干”只会让项目越走越偏。
2025-10-22 17:12:08
723
原创 Optimus关节路线迎颠覆性调整:灵巧手弃全腱绳,Gen3研发倒逼量产“刹车”
从FSD的端到端革命到Optimus的技术路线迭代,特斯拉始终遵循“多路径探索→最优解聚焦”的逻辑。Gen3的关节与手部革新,本质是在“仿生理想”与“量产现实”间寻找平衡——而这种以研发停滞换取技术确定性的选择,或许正是人形机器人从实验室走向工厂的必经之路。
2025-10-21 16:21:11
1061
原创 一米八大长腿,宇树H2炸场发布!“长腿大眼”的人形机器人来了
宇树科技(Unitree Robotics)今日发布了其最新的仿生人形机器人产品——Unitree H2。作为该公司的第二款全尺寸人形机器人,H2在拟人化设计与运动性能上实现了新的突破,旨在为提供安全、友好的交互服务奠定基础。
2025-10-20 16:45:30
901
原创 ImageNet时刻?具身智能迈入“真机评测时代”:RoboChallenge全球首推大规模多任务真机基准平台!
从仿真到真机,从零散测试到大规模标准化基准,RoboChallenge不仅为算法提供了“真实考场”,更打破了资源壁垒,让创新机会流向每一位研究者。无论是高校团队验证理论,还是企业优化落地算法,都能在此找到公平、可靠的评测方案。官网:https://robochallenge.ai论文:https://robochallenge.ai/robochallenge_techreport.pdf。
2025-10-17 14:58:13
803
原创 CoRL2025 爆火!12 篇 Oral 论文拆解具身智能突破:灵巧抓取、仿人平衡,真实机器人任务成功率飙升
CoRL 2025(Conference on Robot Learning 2025)作为聚焦机器人与机器学习交叉领域的旗舰会议,近日于 2025 年 9 月 27 日至 30 日在韩国首尔 COEX 会展中心举办CoRL与同馆联办形成 “机器人学习 + 人形机器人” 的交流场景,会议主题涵盖操作、感知、规划与安全、运动控制、人形机器人与硬件等方向,9 月 27 日为工作坊,28 日至 30 日为主会。下面我给大家介绍几篇精彩的Oral论文~有需要更多CoRL2025会议论文可领取。
2025-10-16 16:23:42
1149
原创 宇树G1开启“打工人”模式,Humanoid Everyday数据集重磅开源!
Humanoid Everyday 项目通过提供大规模、多样化的数据集和标准化的评测平台,为通用人形机器人研究奠定了坚实的基础。实验分析不仅揭示了现有模仿学习方法在处理高维、复杂人形机器人任务时的局限性,也证明了大规模、多样化的数据预训练是提升模型泛化能力的关键路径。面对当前机器人学习数据集主要集中于固定基座机械臂,而现有人形机器人数据集在任务多样性、环境复杂性及人机交互方面存在局限的现状,南加州大学(USC)与丰田研究院(TRI)的研究团队提出了。策略层负责利用采集到的数据训练和评估各类学习模型。
2025-10-15 15:00:33
826
原创 「硅谷库里」诞生!斯坦福AI机器人秀出丝滑连招:运球+急停+跳投,动作流畅如真人
斯坦福大学的“Learning to Ball”研究为解决强化学习在长时序、多阶段任务中的动作连贯性问题提供了一个强有力的框架。通过引入目标不明确的“中间策略”,并利用双向引导和同步适应机制进行训练,该方法成功让AI智能体掌握了类似人类球员的、连贯而流畅的篮球技巧。这项工作不仅在仿真环境中取得了高水平的量化指标,更重要的是,它为物理仿真角色的控制从“单一技能”向“复杂行为组合”的跨越,迈出了坚实的一步。1。
2025-10-14 15:01:27
881
原创 终极疑问:当前VLA SOTA模型已进化到顶了吗?自变量 + PI 开源,答案藏在这!
相比LLM用了3年才实现SOTA模型开源,VLA领域仅用不到1年就做到了——这不仅说明“具身智能是行业热点”,更反映出“开源是VLA快速落地的最佳路径”。开发者更活跃:中小团队、高校研究者能低成本参与VLA创新,比如有人会给模型加“老人护理场景的动作”,有人会优化“工业分拣的精准度”;硬件适配更快:机器人厂商不用再“自研AI”,直接用开源模型适配硬件,能加速“家庭服务机器人、工业协作机器人”的商业化;技术路线更清晰。
2025-10-13 15:51:21
529
原创 真OR假:ImageNet缔造者苏昊_空降_复旦?深挖具身智能顶流的15年封神路与产业新局!
AI圈的"转会地震"比想象中更劲爆!继体育圈的转会乌龙闹剧后,学术与产业双界传来重磅消息——从定义计算机视觉的"数据基石"到开辟具身智能的"产业航道",这位手握多个"奠基级成果"的狠人,若真落地复旦,是否会重塑中国AI从实验室到产业的竞争格局?让我们深扒这位顶流学者的成长轨迹与时代布局。
2025-10-11 14:27:40
1606
原创 搞懂具身智能的“大小脑算法”:从技术拆解到公式解析,这篇讲透了!
解决VLA“只能按指令做,不会试错改进”的问题——通过RL让机器人在执行中获得“奖励/惩罚”(如“抓稳杯子得1分,掉了扣2分”),持续优化动作策略,提升长时任务的稳定性。类比人类的“思考-执行”分工,具身智能的“大小脑”是机器人实现自主行动的两大核心模块,二者协同构成“感知→决策→执行”的完整闭环。让机器人具备“想象未来”的能力:通过学习环境动态规律(如“推杯子会让杯子移动”“开门需要旋转把手”),预测动作执行后的环境变化。这5个方向覆盖了具身智能的主流技术路线,也是“大小脑算法”的核心构成部分。
2025-10-10 11:50:26
1280
原创 CORL2025最佳论文!【BIGAI × 宇树】重磅发布!全球首个力位混合控制通用策略,机器人学会“轻重缓急”
在机器人运动操控 (Loco-Manipulation) 领域,尤其是在需要与环境发生丰富接触的任务中,对接触力与机器人位置的协同建模至关重要。然而,现有方法往往将力控制与位置控制分离,或完全依赖于位置控制,这限制了机器人在接触丰富场景下的应用能力。针对此挑战,来自北京通用人工智能研究院 (BIGAI) 与宇树科技 (Unitree) 的研究者们在论文中,提出了一种无需依赖外部力传感器的力-位统一控制策略。
2025-10-09 12:16:01
1318
原创 手工调reward成历史!SEEA-R1作为通用大脑登NeurIPS,推动人形机器人规模化发展
自我进化能力,即智能体自主优化其推理与行为的能力,对于解决长时序、真实世界场景下的具身智能任务至关重要。尽管现有的强化微调(Reinforcement Fine-tuning, RFT)技术在提升大语言模型的推理能力上表现出色,但其在多模态交互的具身智能领域,尤其是在赋能自我进化方面的潜力仍未被充分挖掘。稀疏奖励问题:在多步骤的复杂任务中,缺乏中间步骤的有效奖励信号,导致信用分配困难,RFT 难以有效指导策略学习。泛化能力局限。
2025-09-30 15:40:27
1088
原创 告别“视而不见”:港科大&理想&清华推出OmniScene,自动驾驶VQA性能飙升21.4%
OmniScene的探索为自动驾驶领域提供了一个极具价值的新思路。它不再局限于构建纯粹的几何世界模型,而是通过引入语言这一强大的认知工具,赋予了自动驾驶系统“思考”与“理解”的能力。这种融合了“感知-理解-行动”的类人决策闭环,可能是通往更高级别自动驾驶的关键路径之一。将大语言模型的语义理解能力与端到端自动驾驶模型相结合,无疑是未来发展的一大趋势。
2025-09-29 15:40:11
556
原创 Science重磅!浙大团队让无人机“自主空翻”,打破特技飞行天花板!
传统上,高难度的无人机特技飞行(Aerobatic flight)被视为顶尖人类飞手的专属领域。然而,近期发表于《科学·机器人学》(Science Robotics)的一篇论文,为实现无人机全自主、高机动性特技飞行提供了突破性框架。该研究由浙江大学高飞教授团队主导,提出了一套完整的自主系统,使无人机能够在障碍物密布的复杂环境中,自主生成并执行专业飞手级别的复杂特技动作组合。
2025-09-28 15:19:47
753
原创 机器人“看十遍就会”:CoRL 2025研究突破少样本学习瓶颈
学习真实世界中的机器人操作是一项极具挑战性的任务,尤其是在演示数据有限的情况下。现有方法通常依赖仿真增强数据或预设的抓取模块,这些方法不仅难以克服“仿真到现实”的差异,也缺乏可扩展性。虽然大规模模仿学习预训练的视觉-语言-动作 (Vision-Language-Action, VLA) 模型展现了通用潜力,但在数据稀缺场景下如何高效地将这些通用策略适配于特定任务,仍是一个待解决的难题。为应对此挑战,研究团队提出了ControlVLA,一种新颖的、以物体为中心进行适配的微调框架。该框架通过一种类似。
2025-09-26 14:27:50
548
原创 告别单一指令:BFM模型为机器人植入“运动大脑”,一个模型驾驭所有动作
实验结果表明,在运动跟踪、VR 遥操作和速度控制三项主流任务中,BFM 的性能均达到或超越了专门为此任务训练的专家模型,并显著优于通用基线 HOVER(详见原论文表 III、IV)。结果显示,基于 BFM 的残差学习仅需少量训练即可达到高精度的追踪效果,而从零开始训练的强化学习策略收敛慢且最终性能较差 (对应原论文图 3.e)。该模块输出一个动作增量。BFM 的整体实现框架遵循一个三阶段流程,旨在将大规模的人类运动数据转化为机器人可用的、泛化的行为能力。的生成式模型,旨在编码一个广泛、可复用的行为知识库。
2025-09-24 15:30:38
748
原创 VLA与世界模型:自动驾驶的“双脑之争”,谁将胜出?
VLA(视觉-语言-行动模型)是一种端到端的多模态人工智能系统,它通过视觉感知、语言理解和行动执行三个模块的整合,直接将传感器输入映射为控制输出。世界模型则采取了不同的路径,它试图让AI学会理解物理世界的运行规律,通过预测未来状态来指导当前行动。其核心是让AI在内部模拟环境中进行“思想实验”,预测不同行动可能带来的后果。
2025-09-23 16:40:51
1444
原创 NeurIPS‘25 Spotlight:阿里&西交联手提出FSDrive,VLA+世界模型共筑自动驾驶最强范式
然而,当前的视觉语言模型大多采用为特定场景设计的离散文本“思维链”(Chain-of-Thought, CoT),这种方式本质上是对视觉信息的高度抽象和符号化压缩,可能导致时空关系的模糊和细粒度信息的丢失。大量的实验结果表明,FSDrive在轨迹规划、未来帧生成和场景理解等多个任务上均取得了优异的性能,展现了其在推动自动驾驶技术向更高阶的视觉推理迈进方面的巨大潜力。模型的决策不仅基于当前的视觉输入。通过这种渐进式的方法,模型能够生成更加真实、准确的未来预测,为其后续的规划决策提供可靠的依据。
2025-09-22 17:52:23
954
原创 具身智能还有哪些适合研究生的方向?
具身智能是一个广阔且充满活力的交叉学科领域。它不仅是算法的竞技场,也是系统工程、硬件设计与认知科学的交汇点。VLA和RL/IL是两个核心切入点,前者更前沿,后者更扎实。最重要的是,具身智能的研究并非必须依赖昂贵的硬件。利用开源的仿真环境、公开数据集和代码框架,在纯软件层面同样可以开展极具深度的研究。希望这份梳理能帮助你拨开迷雾,找到属于自己的那条研究路径,共同见证这场AI与物理世界融合的浪潮。
2025-09-19 16:53:53
803
原创 开源TrajBooster:突破数据瓶颈!首个支持跨机器人构型的全身操作VLA方案
TrajBooster 框架直面双足人形机器人 VLA 模型训练中的数据稀缺痛点,提出了一种以末端执行器轨迹为核心的跨形态知识迁移方案。通过“真实轨迹提取→仿真重定向→双阶段微调”的创新流程,它成功地将来自轮式机器人的海量数据转化为双足机器人的高效训练资源。该方法不仅大幅降低了对昂贵同形态数据的依赖,更显著提升了模型的动作空间理解力、泛化能力和零样本迁移能力,为双足人形机器人的实用化按下了“加速键”。
2025-09-18 16:27:15
592
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅