自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4040)
  • 收藏
  • 关注

转载 为什么一篇论文要耗尽整个研究生生涯?

大模型、VLA、端到端自动驾驶、3DGS、BEV感知、目标跟踪、毫米波雷达视觉融合、激光视觉融合、多传感器标定、多传感器融合、车道线检测、在线地图、轨迹预测、世界模型、3D目标检测、Occupancy、高性能计算、NeRF、语义分割、决策规划、SLAM等;根据你的具体研究方向(如:端到端、大模型、多传感器融合、具身导航、具身问答等),匹配具有强相关研究背景和发表经验的导师。VLA、VLN、Diffusion Policy、强化学习、模仿学习、仿真、具身交互、遥操作等;专注自动驾驶、具身智能、机器人!

2025-06-23 16:03:38 10

转载 大模型强化学习,相比PPO,DPO 还是个弟弟?

论文先指出了一个令业界困惑的现状,即大部分的开源的榜单上,DPO 占据了领先的位置,但是众所周知,最好的闭源模型 GPT4 和 Claude,用的都是 PPO 方案。作者做了一个验证性实验,发现在偏好数据集没有覆盖的数据点上,DPO 可能分配了比参考模型更高的概率,奖励模型也会在这些数据点赋予偏高的奖励,而 PPO 在 KL 约束下,却能优化出一个优秀的解。对于解编程题来说,不需要人工标注或者训练奖励模型,因为可以直接测试测例来得到结果,正确的回复给高奖励,错误的回复给低奖励,形成成对数据。

2025-06-23 07:31:21 3

转载 深入浅出完整解析LoRA(Low-Rank Adaptation)模型核心基础知识

在整体上对多模态大模型有一定了解后,我们会进一步聊聊实际的应用场景,让大家对未来可能从事的工作方向和工作内容有一定的了解,最后老师会介绍咱们课程的整体框架及预期的实战学习成果。这里也推荐下自动驾驶之心的多模态大模型课程,课程从通用多模态大模型,到大模型微调,最终在聚焦在端到端自动驾驶多模态大模型,基本上面试的东西课程里面都有介绍。多模态大模型当下应用的瓶颈在哪里?大模型高效微调已经成为业界关注的焦点,无论是通用大模型,还是智驾大模型,如何通过轻量微调变成各个不同领域的专业模型,成为讨论的热点。

2025-06-23 07:31:21 7

转载 自动驾驶端到端VLA落地,算法如何设计?

点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线自UniAD(CVPR 2023 Best Paper)问世以来,端到端已经成为当下量产的主流范式。而从去年下半年开始,尤其是DeepSeek思维链流行以来,视觉-语言-动作(VLA)相关方法伴随着具身智能的爆火,相关论文已经横扫自动驾驶前沿领域。同时各家主机厂也争先恐后尝试落地研发,理想、文远知行、小米、小鹏等等都在大力尝试量产。随着2025年即将过半,学术界和工业界也出现了很多优秀的工作。所以哪些高质量工作现在应该格外关注

2025-06-23 07:31:21 9

转载 技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能/场景/方法论全解析~

在叠衣服(含移动机器人场景)、盒子组装、鸡蛋装箱等任务中,π₀通过 “预训练 + 微调” 流程实现平均 60%-80% 的任务完成度,而从头训练(Scratch)或仅预训练(Out-of-Box)的表现显著更差。:基于 Transformer 的视觉 - 语言 - 动作(VLA)模型,将图像、语言指令、动作等多模态输入编码为统一序列,通过自回归预测实现决策。:在 Kinova 平台的擦黑板任务中,A₀成功率 50%,远超 RDT-1B(10%)和 π₀(35%),且执行步骤仅为后者的 1/8-1/10。

2025-06-22 11:39:00 27

转载 理想最新DriveAction:探索VLA模型中类人驾驶决策的基准~

它不仅为学术界提供了一个更全面、更真实的评估工具,有助于推动VLA模型的研究和发展,还为工业界的自动驾驶系统开发提供了有力的支持,能够帮助识别模型的瓶颈,指导系统的优化和改进。:现有评估框架大多未能充分捕捉驾驶决策的核心逻辑,要么专注于孤立任务,要么采用从感知到动作的顺序逻辑,无法体现目标驱动的决策模式,与现实人类驾驶决策的契合度不高。所有标签都经过多轮人工验证,排除了错误、不合理或非法的行为,如意外的控制输入、与交通环境不符的突然停车、违反交通规则的动作等,确保了标注的可靠性和有效性。

2025-06-22 00:01:50 52 1

转载 量产项目卡在了场景泛化,急需千万级自动标注?

所以基于第三章SLAM的重建输出,我们就可以得到全局clip的道路信息,进而基于重建图的得到静态元素的自动化标注结果。相比于车端的感知算法,自动标注系统更像是一个不同模块组成的系统, 充分利用离线的算力和时序信息,才能得到更好的感知结果, 实际落地的时候,对于工程师的能力要求上了一个档次,想要把这些大模型大系统玩转的好和高效,也是非常不容易的。:自动驾驶量产算法功能验证可行后,下一步就需要推进场景泛化,不同城市、道路、天气、交通状况的数据如何挖掘,又如何保证标注算法的性能,仍然是当前业内量产的痛点;

2025-06-22 00:01:50 18

转载 MinMax-M1:超越DeepSeek,支持百万级token上下文

提升RL效率,相比DAPO实现2倍加速,避免了传统方法(如PPO/GRPO)对低概率token有更好的采样效果。:结合MoE架构与Lightning Attention)的模型MiniMax-M1,:从规则验证任务(数学、代码)逐步过渡到通用领域任务,避免灾难性遗忘。:从40K分阶段扩展至80K,根据困惑度与生成长度分布调整窗口。:奖励模型对长文本的偏好可能误导RL训练,需要在线校准机制。,数学/编程数据占SFT数据的60%,为RL提供高质量起点。:支持从40K到80K Token生成长度的扩展。

2025-06-22 00:01:50 35

转载 自动驾驶基础模型全面盘点(LLM/VLM/MLLM/扩散模型/世界模型)

基于仿真和场景的测试已成为自动驾驶系统开发与验证的关键方法。传统场景生成依赖基于规则的系统、知识驱动模型和数据驱动的合成方法,但这些方法往往生成的场景多样性有限,且难以生成真实的高风险安全关键场景。本综述提出了一个统一分类体系,涵盖大语言模型(LLMs)、视觉-语言模型(VLMs)、多模态大型语言模型(MLLMs)、扩散模型(DMs)和世界模型(WMs)在自动驾驶场景生成与分析中的应用。社区里面既能看到最新的行业技术动态、技术分享,也有非常多的技术讨论、入门问答,以及必不可少的行业动态及求职分享。

2025-06-21 19:18:06 62

转载 多样化大规模数据集!SceneSplat++:首个基于3DGS的综合基准~

点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线三维计算机视觉领域高度关注于捕捉场景的几何和视觉外观,以及理解其内容。近年来,三维高斯溅射(3D Gaussian Splatting, 3DGS)因其独特的能力——能够以一种紧凑的形式联合编码场景的几何、外观和理解属性(该形式可以有效地从二维带位姿的图像中优化得到)——已成为最理想的三维表示方法。此外,视觉-语言推理代表了三维场景理解最具前景的方向,因为它将场景的视觉和几何属性与我们用来定义、描述和推理概念的语言连接起来。因

2025-06-21 00:02:37 42

转载 近30家具身公司业务和产品一览

研发高分辨率多模态触觉感知、触觉灵巧手软硬件产品,并通过深度融合通用人工智能和机器人技术,研发含视觉、触觉和语言的操作模型(VTLA),为具身智能、智慧物流、智能制造、实验室自动化等末端抓取领域提供创新性解决方案。:聚焦“以力为中心”的具身智能大模型和相关基础设施的研发,为不同行业的客户提供创新的通用机器人智能解决方案和服务,以解决现实世界中的复杂问题。:专注于人形机器人研发与制造,通用人工智能本体,机器人仿生,以及具身操作系统等多个方向的研发。

2025-06-20 15:04:54 25

转载 斯坦福最新!大模型的幻觉分析:沉迷思考=真相消失?

作者对比了推理模型(R1-OneVision)和非推理模型(Qwen2.5-VL)的注意力分布,发现推理模型对“视觉tokens”(比如图片里物体的特征)的关注度超低,越深层的神经网络越不看图片,反而把更多注意力砸在“指令tokens”(比如“问题”“分析”这些词)上📊。图6:推理模型在不同推理长度下的注意力转移。:当模型开始“滔滔不绝”地推理时,视觉注意力会进一步下降,变成“语言先验依赖症”——比如图1b里的实验显示,推理模型在“感知任务”上的幻觉率比非推理模型高一大截,妥妥的“想太多,看太少”!

2025-06-20 07:30:40 51

转载 CVPR‘25端到端冠军方案!GTRS:可泛化多模态端到端轨迹规划(英伟达&复旦)

此外,我们还引入了一个精细化的轨迹评分机制:即对 Top-k 最优候选轨迹进行逐步打分细化,通过额外的 Transformer Decoder 实现对相近轨迹的微差辨别,从而提升模型在关键决策点上的精度。虽然它可以通过模仿人类行为达到较低的误差(如 L2 距离),但由于只能学习人类展示过的行为轨迹,它在面对未复杂驾驶情境时,难以做出鲁棒的决策,同时在未见过的新场景下的泛化能力也存在不足。该模型在训练时使用了一个超密集的轨迹集合,以提升评分器对多样轨迹分布的泛化能力,使其具备更强的轨迹评分能力。

2025-06-20 07:30:40 19

转载 高质量3DGS表示![特殊字符]-Scene:新颖的大规模驾驶场景生成框架~

此外,为支持各种下游应用(如真实的驾驶仿真和在生成环境中的自由探索),我们进一步对生成的语义占据和多视角图像进行处理,将其重建为三维高斯表示(3DGS),这种技术能够精确保留复杂的几何结构和高保真的视觉外观。例如,如图中所示,用户可以提供简要的场景描述,系统则能充分利用生成模型的创造力,生成合理的场景;在完成单个场景块的生成后,我们提出一种渐进式外绘方法,能够一致地扩展多个块的占据图与图像,并将其重建为融合几何与外观的三维高斯表示(3DGS),以支持多样化的下游应用。如图1所示,布局图由卷积网络。

2025-06-20 07:30:40 22

转载 高质量3DGS表示![特殊字符]-Scene:新颖的大规模驾驶场景生成框架~

此外,为支持各种下游应用(如真实的驾驶仿真和在生成环境中的自由探索),我们进一步对生成的语义占据和多视角图像进行处理,将其重建为三维高斯表示(3DGS),这种技术能够精确保留复杂的几何结构和高保真的视觉外观。例如,如图中所示,用户可以提供简要的场景描述,系统则能充分利用生成模型的创造力,生成合理的场景;在完成单个场景块的生成后,我们提出一种渐进式外绘方法,能够一致地扩展多个块的占据图与图像,并将其重建为融合几何与外观的三维高斯表示(3DGS),以支持多样化的下游应用。如图1所示,布局图由卷积网络。

2025-06-20 07:30:40 4

转载 高质量3DGS表示![特殊字符]-Scene:新颖的大规模驾驶场景生成框架~

此外,为支持各种下游应用(如真实的驾驶仿真和在生成环境中的自由探索),我们进一步对生成的语义占据和多视角图像进行处理,将其重建为三维高斯表示(3DGS),这种技术能够精确保留复杂的几何结构和高保真的视觉外观。例如,如图中所示,用户可以提供简要的场景描述,系统则能充分利用生成模型的创造力,生成合理的场景;在完成单个场景块的生成后,我们提出一种渐进式外绘方法,能够一致地扩展多个块的占据图与图像,并将其重建为融合几何与外观的三维高斯表示(3DGS),以支持多样化的下游应用。如图1所示,布局图由卷积网络。

2025-06-20 07:30:40 3

转载 CVPR‘25端到端冠军方案!GTRS:可泛化多模态端到端轨迹规划(英伟达&复旦)

此外,我们还引入了一个精细化的轨迹评分机制:即对 Top-k 最优候选轨迹进行逐步打分细化,通过额外的 Transformer Decoder 实现对相近轨迹的微差辨别,从而提升模型在关键决策点上的精度。虽然它可以通过模仿人类行为达到较低的误差(如 L2 距离),但由于只能学习人类展示过的行为轨迹,它在面对未复杂驾驶情境时,难以做出鲁棒的决策,同时在未见过的新场景下的泛化能力也存在不足。该模型在训练时使用了一个超密集的轨迹集合,以提升评分器对多样轨迹分布的泛化能力,使其具备更强的轨迹评分能力。

2025-06-20 07:30:40 4

转载 学习端到端大模型,还不太明白VLM和VLA的区别。。。

2、VLA更侧重Action的能力,最终目的是为了做动作,在自动驾驶中可以理解为自车轨迹预测的能力,通时预测的轨迹又要尽可能的符合人类的理解,这又进一步依赖vision和language的基本能力,比如我要解释这个行为,可以使用思维链的形式一步步推理分析,这里面依赖自动驾驶基础的感知(行人在哪里,2D坐标,3D位置等等)VLM接扩散模型就可以预测轨迹,也就是Action,这块就涉及到多模轨迹的好处了,面对不确定的环境,单模的能力有限,多模的上限是更高的。业内最全的全栈学习路线图,独家业内招聘信息分享~

2025-06-19 19:54:26 94

转载 ForceVLA:通过力感知MoE增强接触丰富操作的VLA模型

早期融合方法(如在VLM前注入力数据)显著降低了性能,而晚期融合方法(在VLM后连接力特征)将成功率提高到60%,ForceVLA通过FVLMoE模块实现的自适应融合达到了80%的成功率,验证了力应在VLM编码后引入并通过复杂融合机制利用的设计原则。在多任务联合训练中,ForceVLA表现出卓越的多任务能力,平均成功率达到67.5%,在瓶子按压和白板擦拭任务中获得80%的成功率,在插头插入任务中达到100%的成功率,证明了其在共享策略中利用多模态线索的能力。本文只做学术分享,如有侵权,联系删文。

2025-06-19 14:30:58 22

转载 调研了一圈,还是更想做自动驾驶!

1年内支持售后(非人为损坏),邮费自付。保修期内因操作失误/修改代码等个人原因导致损坏的,我司提供免费维修。这两个月订单排满了,正在不断组装调试,5台及以上订单可以优惠哦!自动驾驶之心团队推出的教研一体轻量级解决方案,支持感知、定位、融合、导航、规划等多个功能平台,阿克曼底盘。黑武士支持二次开发和改装,预留了众多安装位置和接口,可以加装相机、毫米波雷达等传感器;我们测试了室内、室外、地库等场景下感知、定位、融合、导航规划等功能;以下为产品说明书部分内容,涉及硬件、传感器参数、软件、维修等内容。

2025-06-19 14:30:58 18

转载 AI Day直播!清华&吉利Challenger框架:自动驾驶对抗场景高效生成~

实验表明,所生成场景显著提升主流端到端自动驾驶模型(如UniAD、VAD)的碰撞率(最高达26倍),且发现的对抗行为具有跨模型可迁移性,揭示了自动驾驶系统的共性脆弱性。:基于扩散模型生成初始轨迹,结合线性二次调节器(LQR)控制器与自行车运动学模型进行物理仿真,通过迭代式重采样、噪声扰动和去噪细化,高效筛选对抗性候选轨迹。:设计兼顾环境约束与对抗性的复合评分指标(可行驶区域合规性、碰撞率、对抗挑战度),在抽象层面评估轨迹质量,避免高成本的逐轨迹渲染计算。自动驾驶感知(大模型、端到端自动驾驶。

2025-06-19 07:30:22 18

转载 自动驾驶前沿文章速递 | VLA、场景生成、拓扑推理~

将BEV车道投影至前视图(FV)图像空间,提取对应FV特征并与BEV车道查询融合,结合位置编码(PE)对齐空间关系,解决BEV车道与FV交通元素(如红绿灯、标志)的空间表征差异问题。创新点 :提出物理感知动作标记化 (Physical Action Tokenization),将动作空间(如加速度、转向角)离散化为可学习的标记,确保生成轨迹的物理可行性。融合车道特征(MLP生成的前驱/后继嵌入)与几何距离特征(端点到起点距离的MLP编码),构建高维L2L关系嵌入(GL2L),降低对微小感知误差的敏感性。

2025-06-18 20:35:57 65

转载 课程+软件+硬件!自动驾驶全栈开发平台黑武士001持续量产中......

1年内支持售后(非人为损坏),邮费自付。保修期内因操作失误/修改代码等个人原因导致损坏的,我司提供免费维修。这两个月订单排满了,正在不断组装调试,5台及以上订单可以优惠哦!自动驾驶之心团队推出的教研一体轻量级解决方案,支持感知、定位、融合、导航、规划等多个功能平台,阿克曼底盘。黑武士支持二次开发和改装,预留了众多安装位置和接口,可以加装相机、毫米波雷达等传感器;我们测试了室内、室外、地库等场景下感知、定位、融合、导航规划等功能;以下为产品说明书部分内容,涉及硬件、传感器参数、软件、维修等内容。

2025-06-18 12:00:00 34

原创 开闭环双SOTA!北航FocalAD:局部交互感知端到端规划新框架,碰撞率降低超过40%~

点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群论文作者 | Bin Sun等编辑 | 自动驾驶之心在端到端的自动驾驶中,运动预测在自车规划中起着关键作用。然而,现有方法通常依赖于全局聚合的运动特征,忽视了规划决策主要受一小部分局部交互代理影响的事实。未能关注这些关键的局部交互可能会掩盖潜在风险并削弱规划的可靠性。在本研究中,我们提出了FocalAD,一种新的端到端自动驾驶框架,该框架专注于关键的局部邻居,并通过增强局部

2025-06-18 07:30:44 861

转载 对VLA的RL最新进展的梳理~

为了避免传统的机器人RL训练中稀疏的二元奖励带来的问题,作者决定给训练轨迹中划分一些稠密的伪奖励,来指示当前状态/动作序列片段朝着任务完成的有效进展程度,从而用它们训练一个专门的奖励模型(Robotic Process Reward Model)。RIPT-VLA主要是采用LOOP算法的online RL,给出了开源代码。实验上主要在Simpler-Env和LIBERO环境中,使用open-VLA和它的原始检查点、SFT、每一step level的DPO以及Octo的SFT对比,超过了它们的表现。

2025-06-18 07:30:44 40

转载 VLA/端到端/3DGS/具身智能!自动驾驶之心业务合伙人招募~

如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们;自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相关课程研发、论文辅导业务开发、硬件研发;更多欢迎添加微信咨询,备注“ 机构/公司 + 自动驾驶合作咨询 ”。QS200以内高校,硕士及以上学历,手握顶会的大佬优先。自动驾驶资源共享(求职、读博、出国留学推荐等);创业项目合作与推荐;

2025-06-17 16:44:06 25

转载 浙大最新!X-Scene:具有高保真度和灵活可控性的大规模驾驶场景生成!

将BEV车道投影至前视图(FV)图像空间,提取对应FV特征并与BEV车道查询融合,结合位置编码(PE)对齐空间关系,解决BEV车道与FV交通元素(如红绿灯、标志)的空间表征差异问题。创新点 :提出物理感知动作标记化 (Physical Action Tokenization),将动作空间(如加速度、转向角)离散化为可学习的标记,确保生成轨迹的物理可行性。融合车道特征(MLP生成的前驱/后继嵌入)与几何距离特征(端点到起点距离的MLP编码),构建高维L2L关系嵌入(GL2L),降低对微小感知误差的敏感性。

2025-06-17 16:44:06 70

转载 正在整理了!原来大家都对这个感兴趣

除此之外,还和数十家自动驾驶公司建立了1v1内推渠道,简历直达!星友们也都是卧虎藏龙,主要来自地平线、蔚来、小鹏、理想汽车、AI Lab、商汤科技、旷视科技、百度、阿里、网易、Momenta、Intel、Nvidia、赢彻科技、图森未来、智加科技、AutoX、大疆、上汽、集度、斑马、华为等业界知名公司,以及苏黎世理工、卡耐基梅隆大学、普渡大学、东京大学、香港中文大学、香港科技大学、香港大学、清华大学、上海交大、复旦大学、浙江大学、中科大、南京大学、东南大学、同济大学、上海科技大学、哈工大等国内外知名高校;

2025-06-17 10:23:00 74

转载 UniVLA:高效利用多源异构数据,构建通用可扩展的机器人动作空间

在这个“中间表征”上统一训练与泛化策略,不仅可以有效解决上述瓶颈,同时也能够以更低的计算资源消耗实现更优的效果。核心创新在于构建了以任务为中心的潜在动作空间(Task-Centric Latent Action Space),彻底抛弃了对动作标签的依赖,让模型可以从海量无标签视频中也可以学习任务相关且高效泛化的动作表示,只在人类视频数据(Ego4D)上预训练,也可以在 LIBERO 仿真平台上达到 SOTA 级别效果。(包括人类视频),实现跨动作空间和场景的知识迁移。等任务,实现了通用的动作学习。

2025-06-17 10:23:00 36

转载 CVPR 2025 最佳论文!Meta&牛津VGGT:高效3D视觉新范式~

有趣的是,研究团队还意外发现,利用模型预测的深度图与相机参数反投影生成的点云,其质量甚至超过直接回归的点图,这一现象揭示了模型对几何一致性内在规律的自发学习能力。其博士工作聚焦于端到端几何推理框架的创新,曾主导开发PoseDiffusion、VGGSfM,以及本次提出的通用3D基础模型VGGT,相关成果均发表于CVPR、ICCV等顶级会议,推动了数据驱动式3D重建技术的演进。视觉重建作为所有 3D 任务的核心,VGGT 的成功标志着 3D 视觉领域或许即将迎来一个全新的,基础模型的时代。

2025-06-17 07:30:21 458

原创 世界模型SOTA!华科&小米Genesis:跨模态时空一致性,更真实更可用!

具体而言,首先构建包含车道段、人体姿态关键点和3D车辆边界框的结构化BEV布局,将其投影到各视角2D图像平面形成语义控制图,再通过Control-DiT模块的交叉注意力机制在每个去噪时间步融入这些结构化先验,实现对生成过程的引导。此外,与大多数现有的多模态生成方法一样,目前的方法通常依赖于有限的语义监督,通常以粗略标签或通用标题模型的形式而没有充分利用现代视觉语言模型 (VLM) 的细粒度描述能力。统一的多模态生成架构。通过改变场景级条件,本文的方法可以生成与同一基础地图和物体布局对齐的一致多视图视频。

2025-06-17 07:30:21 987

转载 上交最新!助力部署,EfficientVLA:免训练加速和压缩的VLA模型

EfficientVLA使用基于相似度的重要性度量来针对语言模块的主要内存瓶颈及其观察到的深度方向冗余(图1(b)),采用基于相似度的重要性度量来剪除功能上无关紧要的层,从而在不重新训练的情况下减少模型深度和内存需求。这种协同的、结构化的方法比孤立的优化更全面地缓解了GPU计算和内存瓶颈。提出了EfficientVLA,这是一种新颖的免训练、结构化推理加速框架,它基于信息影响协同修剪语言模块中的冗余层,并通过考虑VLA任务相关性和固有图像特征多样性,策略性地选择紧凑的、以任务为中心的视觉token子集。

2025-06-16 16:50:06 56

转载 图解大模型微调系列之:大模型低秩适配器LoRA(原理篇)

在整体上对多模态大模型有一定了解后,我们会进一步聊聊实际的应用场景,让大家对未来可能从事的工作方向和工作内容有一定的了解,最后老师会介绍咱们课程的整体框架及预期的实战学习成果。这里也推荐下自动驾驶之心的多模态大模型课程,课程从通用多模态大模型,到大模型微调,最终在聚焦在端到端自动驾驶多模态大模型,基本上面试的东西课程里面都有介绍。多模态大模型当下应用的瓶颈在哪里?大模型高效微调已经成为业界关注的焦点,无论是通用大模型,还是智驾大模型,如何通过轻量微调变成各个不同领域的专业模型,成为讨论的热点。

2025-06-16 07:31:26 34

原创 超越DiffusionDrive!华科提出ReCogDrive:结合强化学习的三阶段VLA训练框架~

ReCogDrive的结构主要由驾驶多模态大模型和基于扩散模型的规划器组成,推理时,将前视图以及导航指令,历史轨迹,任务指令输入给多模态大模型,多模态大模型输出隐藏特征作为Diffusion的Condition,Diffusion从噪声中逐步去噪生成最终轨迹。最后,我们引入仿真辅助的强化学习,将通过多轨迹探索获得的泛化驾驶认知整合进扩散规划器中。在本工作中,我们提出了 ReCogDrive,一个端到端的自动驾驶系统,集成了视觉语言大模型与基于扩散模型的轨迹规划器,并采用了三阶段的训练范式。

2025-06-16 07:31:26 961

转载 数据闭环的核心 - 千万级静态元素自动标注方案分享

老师还特别准备了闭环仿真DrivingGaussian算法的讲解,闭环仿真是端到端自动驾驶的刚需,在4D自动标注的基础上,进一步扩展同学们的视野。在这一章都会有答案!调研下来,原来业内已经在完整的3D场景中展开标注了,这样统一的时空下,利用位姿就可以投影到每一帧上,保证位姿的准确性就可以,并且在俯视图上车道线标注的难度大大降低,非常适合大规模铺开。:自动驾驶量产算法功能验证可行后,下一步就需要推进场景泛化,不同城市、道路、天气、交通状况的数据如何挖掘,又如何保证标注算法的性能,仍然是当前业内量产的痛点;

2025-06-15 16:03:09 38

转载 字节BridgeVLA:基于VLM的输入-输出对齐高效 3D 操作学习

现有整合 3D 信息到 VLM 以开发 3D VLA 模型的工作,常将动作转为无空间结构的标记序列进行预测,未像高效 3D 策略那样对齐观察与动作的统一空间,且 3D 输入与 VLM 预训练的 2D 图像输入存在分布偏移,导致样本效率低,因此亟待开发兼具 VLA 有效性与 3D 策略效率的统一 3D VLA 模型。该预训练策略输出具备空间意识的 2D 热图,区别于先前工作中基于标记序列的预测方式,且可利用关键点检测、语义分割等任何可转化为热图预测任务的视觉 - 语言数据集,具有高度可扩展性。

2025-06-15 16:03:09 79

转载 DriveAction: 面向VLA模型的人类化驾驶决策基准

依赖开源数据集(如nuScenes、Waymo),覆盖场景单一,关键场景(匝道汇入、施工区、行人交互)代表性弱。:模型在车道定位(Navigation Position)任务准确率仅66.8-71.3%(Table 4)。:移除视觉输入平均精度下降3.3%,移除语言输入下降4.1%,同时移除下降8.0%(Table 3)。:在V-L-A模式下,o1模型精度达93.56%(Table 3),但该优势在信息缺失时减弱。:匹配端到端大模型输出粒度,体现人类决策的离散性特征(对比Table 1的Label列)。

2025-06-15 00:01:39 48

转载 分层端到端VLA和纯端到端VLA有什么区别?

这类端到端的范式依赖于先前广泛的研究先验,通过不同架构(diffusion/ transformer/dit),不同的模型大小,不同的应用场景(2d/3d),不同的任务需求(从头训/下游微调),产生了各类不同的方案,取得了不错的性能。无论是显示端到到VLA,还是隐式/分层端到端VLA,其中涉及到的模块、细节众多。隐式端到端VLA,则不同于前者,更加关注工作的可解释性,旨在利用当前的video diffusion模型实现未来状态的预测,再根据未来的状态通过逆运动学规律生成未来可执行的动作。

2025-06-15 00:01:39 50

转载 谢赛宁开炮,现场打脸CVPR评审?!

时间来到2025年,当OpenAI在发布最新版o3和o4-mini的时候,不仅在模型评测中加入了基于V*的视觉搜索基准,而且还将基于图像的思考能力作为重中之重,直接放在了标题上。而当他人也达成了与我同样的理解——那一刻,我便获得了一种满足感,一种深刻的归属感。就在几个月后,CVPR评审又被打脸了:Stable Diffusion 3发布,直接表明「结合了DiT架构和流匹配技术」,也就是基于SiT。然而,就是这样一篇神作,当初却因「缺乏创新性」的理由,直接被CVPR 2023拒了,还一连被多个大公司拒绝。

2025-06-15 00:01:39 79

转载 一文盘点完全端到端的主流方法

多目标多头蒸馏模块:我们看到轨迹模仿学习之后的轨迹还过了其他的MLP,这就是其他头,它的目标也是不一样的,第一个是跟碰撞相关的,第二个是跟行驶区域相关的,第三个是跟舒适度相关的,也就是说不同的评判指标都有一个teacher,之前的模仿学习就是人类的teacher,那么这些teacher是怎么来的呢?体现出了监督的有限性,而且没考虑到监督的安全、交通规则、舒适、效率。本文作者提出的新的范式,就是规划模块是多模的输出,同时,目标也是多样性的,即不仅是GT的轨迹也同时引入了更多的正样本,由不同的专家给出的。

2025-06-15 00:01:39 71

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除