自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4235)
  • 收藏
  • 关注

转载 自动驾驶论文速递 | 扩散模型、轨迹预测、TopoLiDM、VLA等~

TUM提出了一种统一的感知-语言-动作(PLA)框架,通过整合多传感器融合和GPT-4.1增强的视觉-语言-动作推理核心,实现了自适应自动驾驶的上下文感知决策,在nuScenes数据集的城市交叉路口场景中,速度预测的平均绝对误差(MAE)降至0.39 m/s、R²分数达0.923,轨迹跟踪的平均位移误差(ADE)为1.013米。提出统一的感知 - 语言 - 动作(PLA)框架,将多模态感知与基于大语言模型(LLM)的推理及运动规划紧密耦合,实现复杂城市环境下连贯且自适应的决策。

2025-08-05 11:09:11 17

转载 面向量产VLA方案!FastDriveVLA:即插即用剪枝模块,推理加速近4倍(北大&小鹏)

但是技术的进步不止于此,随着视觉-语言大模型(VLM)在视觉问答任务中展现出令人称奇的推理能力,很多研究人员及算法团队开始将其扩展至具身智能和自动驾驶领域,通过引入动作生成功能,形成了视觉-语言-动作(VLA)模型。训练时,依据 ReconPruner 预测的显著性分数,选取分数最高的子集视觉 token,用于被遮挡前景区域的重建。如图 4 所示,ReconPruner 能够精确保留与前景物体相关的 token,并清晰区分背景区域,在显著降低 token 冗余的同时,仍能高质量地重建关键视觉信息。

2025-08-05 07:31:34 13

转载 自动驾驶秋招&社招求职群成立了!

大家都感觉到自动驾驶技术栈开始趋同,以前大大小小几十个方向都需要算法工程师,现在one model、VLM、VLA,统一方案的背后其实是更高的技术壁垒。博主一直在鼓励大家坚持、多多交流,但归根结底个人的力量是有限的。我们希望共建一个大的社群和大家一起成长,真正能够帮助到一些有需要的小伙伴,成为一个汇集全行业人才的综合型平台。所以我们也开始正式运营求职与行业相关的社群。社群内部主要讨论相关产业、公司、产品研发、求职与跳槽相关内容。如果您想结交更多同行业的朋友,第一时间了解产业。

2025-08-05 07:31:34 7

转载 机器人不只会抓和放!北大x银河通用「世界-动作模型」来了

目前的学习方法如 CORN、HACMan 等,主要侧重于仅根据几何信息推理动作,例如 “向左推物体会往左移动”,但它们缺乏对环境中潜在动力学属性(如摩擦、质量、弹性等)的建模与适应能力,导致在面对真实物理扰动时表现急剧下降。同时,历史信息还包含更完整的几何线索,弥补了单帧观测中的缺失。第一作者为北京大学计算机学院前沿计算研究中心博士生吕江燃,主要研究方向为具身智能,聚焦于世界模型和机器人的灵巧操作,论文发表于 ICCV,TPAMI,RSS,CoRL,RAL 等机器人顶会顶刊。这对感知系统提出了极高的要求。

2025-08-04 15:31:00 19

转载 暑期打比赛!PRCV 2025空间智能与具身智能视觉感知挑战赛报名即将截止~

定义为:对于成功完成的任务,位姿误差为0,而对于失败的任务,位姿误差为物体最终位置与正确位置范围之间的最短归一化欧氏距离。各参赛队在赛前需签订数据使用协议,承诺本竞赛提供的测试数据集仅能用于本竞赛,不用于除本竞赛外的任何其他用途,并承诺数据用后即刻删除,不可扩散,组织方保留追究法律责任的权利。竞赛期间,组委会坚持公开、公平、公正的原则。各参赛队需要承诺本队提交的结果可重复,参赛队所有的方案、算法以及相关的知识产权均属于参赛队伍所有,组织方承诺履行保密义务,并不用于除本比赛外的任何其他用途。

2025-08-04 15:31:00 48

转载 性能暴涨30%!港中文ReAL-AD:类人推理的端到端算法 (ICCV‘25)

最后,轨迹解码器(通常是一个多层感知机,MLP)通过从自我特征进行回归,预测未来的航点。提出了 ReAL-AD,这是一个增强型的端到端自动驾驶学习框架,通过利用视觉语言模型在策略、决策和操作层面进行结构化推理,从而提升自动驾驶的性能。值得注意的是,我们的性能也优于其他使用相同基线的 VLM 辅助方法(如 VLP 和 VLM-AD),在 nuScenes 数据集上实现了最低的平均 L2 误差(0.48 米)和碰撞率(0.15%),在 Bench2Drive 数据集上则分别为 0.84 米和 0.12%。

2025-08-04 07:30:33 14

转载 自动驾驶运动规划(motion planning)发展到了什么阶段?

这次报告以interaction的建模和求解为切口,分析了近些年常用的框架范式,比如将ego trajectory和agent trajectory的关系加入loss function或constraint中,ego/agent trajectory从lane routing或neural network生成等。大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制。自动驾驶感知(大模型、端到端自动驾驶。

2025-08-03 08:31:23 32

转载 4000人了,我们搭建了一个非常全栈的自动驾驶社区!

星球内部的成员来自国内外知名高校实验室、自动驾驶相关的头部公司,其中高校和科研机构包括但不限于:上海交大、北京大学、CMU、清华大学、西湖大学、上海人工智能实验室、港科大、港大、南洋理工、新加坡国立、ETH、南京大学、华中科技大学、ETH等等!花拳绣腿的不行、没人交流的也不行、找不到工作的更不行。针对2025年最火的自动驾驶VLA,我们详细梳理了最新的综述、VLA开源数据集、作为语言解释器的相关算法、模块化VLA、端到端VLA和推理增强VLA,更有诸多关于VLA量产的讨论,在这里有你想知道的一切~

2025-08-03 08:31:23 19

转载 准备扩大自驾团队了,欢迎家入我们~

当行业进入下沉期,简单的事情已经逐渐收敛,更多的是要面对复杂和困难的未知事物,这时候更需要坐得住冷板凳,才能做的出真功夫。如果您是大模型/多模态大模型、Diffusion、VLA、VLA+RL、端到端、强化学习、运动规划、世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们一起为行业输出最优秀的教程。自动驾驶之心已经进入第四个年头,我们邀请全球自动驾驶领域的开发研究者,一起和我们参与智能驾驶项目合作、自动驾驶教育研发。我们将提供大比例的分红,和全行业的资源共享。自驾教育研发与咨询服务。

2025-08-03 08:31:23 18

转载 准备扩大自驾团队了,欢迎加入我们~

当行业进入下沉期,简单的事情已经逐渐收敛,更多的是要面对复杂和困难的未知事物,这时候更需要坐得住冷板凳,才能做的出真功夫。如果您是大模型/多模态大模型、Diffusion、VLA、VLA+RL、端到端、强化学习、运动规划、世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们一起为行业输出最优秀的教程。自动驾驶之心已经进入第四个年头,我们邀请全球自动驾驶领域的开发研究者,一起和我们参与智能驾驶项目合作、自动驾驶教育研发。我们将提供大比例的分红,和全行业的资源共享。自驾教育研发与咨询服务。

2025-08-03 08:31:23 6

转载 自动驾驶之心VLA技术交流群成立了~(数据/模型/部署等方向)

自动驾驶之心VLA技术交流群成立了,欢迎大家加入一起交流VLA相关的内容:包括VLA数据集制作、一段式VLA、分层VLA、基于大模型的端到端方案、基于VLM+DP的方案、量产落地、求职等内容。感兴趣的同学欢迎添加小助理微信进群:AIDriver005,备注:昵称+VLA加群。

2025-08-02 19:49:26 28

转载 智元机器人罗剑岚老师专访!具身智能的数采、仿真、场景与工程化~

罗剑岚:应该是在工商业先落地,因为工业制造服务场景这些比较受限,或者说半开放的这些环境里面,这些场景结构化的程度相对比较高,需求也比较明确,商业需求比较明确,大家现在也对具身智能抱有比较大的期待,因为现在是短期,是比较理想的技术跳板,长期来看家庭来说具身智能是更大市场。1. 想问一个比较技术性的问题,因为我有聊过很多企业,但是他们对于具身智能大模型的评估没有很好的一个标准,生成大模型那种,目前来说您从外界来说,你觉得有没有必要建立这样的benchmark,这个benchmark怎么建立?

2025-08-02 00:01:21 48

转载 ACM MM‘25 | 自驾2D目标检测新SOTA!超越最新YOLO Series~

这种模块引入顺序的设计,避免了低层特征提取阶段过早引入复杂运算导致的学习干扰,同时充分利用高层特征的上下文信息,对目标进行更精确的识别与定位。整体而言,FAFCE 通过频率增强机制,在保证轻量化的同时,显著提升了特征融合的一致性与精度,特别适用于自动驾驶等对边界与小目标敏感的任务场景。的情况下,模型的特征响应主要集中在图像中心区域,响应范围较窄,颜色变化不明显,说明模型的感受野较小,无法充分利用图像中的上下文信息。机制能动态地为不同空间位置的多层特征分配权重,从而增强模型对不同尺度与空间目标的适应性。

2025-08-02 00:01:21 30

转载 ACM MM‘25 | 自驾2D目标检测新SOTA!超越最新YOLO Series~

这种模块引入顺序的设计,避免了低层特征提取阶段过早引入复杂运算导致的学习干扰,同时充分利用高层特征的上下文信息,对目标进行更精确的识别与定位。整体而言,FAFCE 通过频率增强机制,在保证轻量化的同时,显著提升了特征融合的一致性与精度,特别适用于自动驾驶等对边界与小目标敏感的任务场景。的情况下,模型的特征响应主要集中在图像中心区域,响应范围较窄,颜色变化不明显,说明模型的感受野较小,无法充分利用图像中的上下文信息。机制能动态地为不同空间位置的多层特征分配权重,从而增强模型对不同尺度与空间目标的适应性。

2025-08-02 00:01:21 5

转载 智源研究院具身智能大模型研究员岗位开放了 ,社招、校招、实习都可!

这是一个给自动驾驶、具身智能、机器人方向同学求职交流的地方,目前近1000名成员了,成员范围包含已经工作的社招同学,如智元机器人、宇树科技、地瓜机器人、地平线、理想汽车、华为、小米汽车、momenta、元戎启行等公司。这一点结合我们已有的优势,给大家汇总了面试题目、面经、行业研报、谈薪技巧、还有各类内推公司、简历优化建议服务。具备大模型领域的研究经验,对主流视觉与语言大模型有深入理解,具备预训练、微调、部署等流程的工作经验;智源研究院招募具身智能大模型研究员岗位了 ,开放了社招、校招、实习等形式,都可以!

2025-08-01 15:05:18 208

转载 聊聊算法秋招岗该如何准备?2025我的秋招总结~

这是一个给自动驾驶、具身智能、机器人方向同学求职交流的地方,目前近1000名成员了,成员范围包含已经工作的社招同学,如智元机器人、宇树科技、地瓜机器人、地平线、理想汽车、华为、小米汽车、momenta、元戎启行等公司。从1面到3面,从写代码题目、到项目细节,都给大家梳理了一遍。这一点结合我们已有的优势,给大家汇总了面试题目、面经、行业研报、谈薪技巧、还有各类内推公司、简历优化建议服务。主要关于小厂、大厂面试,秋招的校招如何准备、公司选择等主要问题,以及大模型、自动标注、端到端一些岗位的介绍和分析。

2025-08-01 07:31:30 132

转载 4000人了,死磕技术的自动驾驶黄埔军校到底做了哪些事情?

星球内部的成员来自国内外知名高校实验室、自动驾驶相关的头部公司,其中高校和科研机构包括但不限于:上海交大、北京大学、CMU、清华大学、西湖大学、上海人工智能实验室、港科大、港大、南洋理工、新加坡国立、ETH、南京大学、华中科技大学、ETH等等!公司包括但不限于:蔚小理、地平线、华为、大疆、广汽、上汽、博世、轻舟智航、斑马智行、小米汽车、英伟达、Momenta、百度等等。扩散模型作为当下的研究热点,星球内部也做了非常详细的梳理,从算法原理,到数据生成、场景重建、端到端、世界模型结合、大模型结合等等!

2025-07-31 14:18:38 22

转载 Qcnet->SmartRefine->Donut:Argoverse v2上SOTA的进化之路~

在这个过程中,需要将anchor周围的context信息转换到对应的锚点坐标系下,此处所说的转移,应该也是通过相对位置信息注入的形式,这个相对位置是anchor周围的context相对于anchor坐标系的。由于特征编码时,均是在各自的local坐标系下,elements之间的相对位置关系丢失,因此在进行交叉注意力时,需要额外注入agent历史时刻之间,agent与map元素,agent与agent之间的。同时,确定范围之后,获取的context信息都是基于anchor-centric编码的。

2025-07-31 14:18:38 28

转载 Qcnet->SmartRefine->Donut:Argoverse v2上SOTA的进化之路~

在这个过程中,需要将anchor周围的context信息转换到对应的锚点坐标系下,此处所说的转移,应该也是通过相对位置信息注入的形式,这个相对位置是anchor周围的context相对于anchor坐标系的。由于特征编码时,均是在各自的local坐标系下,elements之间的相对位置关系丢失,因此在进行交叉注意力时,需要额外注入agent历史时刻之间,agent与map元素,agent与agent之间的。同时,确定范围之后,获取的context信息都是基于anchor-centric编码的。

2025-07-31 14:18:38 15

转载 Qcnet->SmartRefine->Donut:Argoverse v2上SOTA的进化之路~

在这个过程中,需要将anchor周围的context信息转换到对应的锚点坐标系下,此处所说的转移,应该也是通过相对位置信息注入的形式,这个相对位置是anchor周围的context相对于anchor坐标系的。由于特征编码时,均是在各自的local坐标系下,elements之间的相对位置关系丢失,因此在进行交叉注意力时,需要额外注入agent历史时刻之间,agent与map元素,agent与agent之间的。同时,确定范围之后,获取的context信息都是基于anchor-centric编码的。

2025-07-31 14:18:38 5

转载 Qcnet->SmartRefine->Donut:Argoverse v2上SOTA的进化之路~

在这个过程中,需要将anchor周围的context信息转换到对应的锚点坐标系下,此处所说的转移,应该也是通过相对位置信息注入的形式,这个相对位置是anchor周围的context相对于anchor坐标系的。由于特征编码时,均是在各自的local坐标系下,elements之间的相对位置关系丢失,因此在进行交叉注意力时,需要额外注入agent历史时刻之间,agent与map元素,agent与agent之间的。同时,确定范围之后,获取的context信息都是基于anchor-centric编码的。

2025-07-31 14:18:38 4

转载 Qcnet->SmartRefine->Donut:Argoverse v2上SOTA的进化之路~

在这个过程中,需要将anchor周围的context信息转换到对应的锚点坐标系下,此处所说的转移,应该也是通过相对位置信息注入的形式,这个相对位置是anchor周围的context相对于anchor坐标系的。由于特征编码时,均是在各自的local坐标系下,elements之间的相对位置关系丢失,因此在进行交叉注意力时,需要额外注入agent历史时刻之间,agent与map元素,agent与agent之间的。同时,确定范围之后,获取的context信息都是基于anchor-centric编码的。

2025-07-31 14:18:38 1

转载 老师让我搭建一台自驾科研平台,看到了这个就不想动手了......

最近我们一个学员找我们咨询自动驾驶的科研平台,老师让他自己搭建一套,但系统较为复杂,无从下手。直到我们推荐给他黑武士,简直是梦中情车,功能上满足了所有科研要求。黑武士001是自动驾驶之心团队推出的教研一体轻量级解决方案,支持感知、定位、融合、导航、规划等多个功能平台,阿克曼底盘。黑武士支持二次开发和改装,预留了众多安装位置和接口,可以加装相机、毫米波雷达等传感器;我们测试了室内、室外、地库等场景下感知、定位、融合、导航规划等功能;以下为产品说明书部分内容,涉及硬件、传感器参数、软件、维修等内容。

2025-07-31 07:31:04 42

转载 端到端/大模型/世界模型秋招怎么准备?我们建了一个求职交流群...

博主一直在鼓励大家坚持、多多交流,但归根结底个人的力量是有限的。我们希望共建一个大的社群和大家一起成长,真正能够帮助到一些有需要的小伙伴,成为一个汇集全行业人才的综合型平台,真正做一个链接学校和公司的桥梁。社群内部主要讨论相关产业、公司、产品研发、求职与跳槽相关内容。最近和很多准备校招的小伙伴接触,发现大家在学校学习的东西和工作的差距越来越大。有不少工作多年的小伙伴表示也在看机会,感知转大模型、世界模型,传统规控想转具身。但却不知道业内实际在做什么,导致秋招的时候没有什么优势。

2025-07-31 07:31:04 27

转载 关于理想VLA司机大模型的22个QA

除了VLA,有没有其他的机制?郎咸朋:VLA有很强的技术潜力,端到端让自动驾驶从人工变成AI,但仅靠V(视觉)和A(动作)不够,VLA架构思路来源于机器人和具身智能,是长期架构。但如果现在是我现在的理想L9可能就超过去了(当时的路段是双向的,但是每个向只有一个车道,左边中间是虚线它是可以借道超车的情况,旁边没有别的车,只有前面一辆车),这是为什么?问题19:咱们说“我们要成为更好的家庭司机”,其实每个人对司机的要求和驾驶感受不一样,有的需要激进一点,有的需要稳妥一点,甚至同样的人也有不一样的需要。

2025-07-31 07:31:04 55

转载 自动驾驶论文速递 | GS-Occ3D、BEV-LLM、协同感知、强化学习等~

清华大学(AIR研究院)、香港大学、百度联合团队ICCV'25中稿的工作,本文提出端到端协同感知框架CoopTrack,通过可学习实例关联与解码后融合技术,在V2X-Seq数据集实现39.0% mAP与32.8% AMOTA的SOTA性能,传输成本降低至V2X-ViT的2.2%。首次采用纯视觉方法重建整个 Waymo 数据集,验证了其生成的标签在 Occ3D-Waymo 下游模型训练中的有效性,并在 Occ3D-nuScenes 上展现出更优的零样本泛化能力,凸显了大规模自动驾驶场景应用的可扩展性。

2025-07-30 11:01:26 50

转载 理想发布会三小时,最狠的是:VLA 要上路了?!

然后是基于扩散模型的端到端方法:从去年下半年开始,扩散模型的思想就被引入到多模轨迹预测中,相比单模轨迹的输出,多模轨迹可以更好的适应自动驾驶不确定的环境!第一章主要是针对端到端自动驾驶概括性的内容讲解,这一章老师会带大家盘一下端到端的发展历史,端到端这个概念是怎么来了,为什么从模块化的方法发展到端到端。为什么会出现二段式端到端?现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。

2025-07-30 11:01:26 60

原创 自动驾驶Agent来了!DriveAgent-R1:智能思维和主动感知Agent(上海期智&理想)

而在一个光线条件较差,充满不确定的乡村夜间道路中,智能体主动调用了“3D Object Detection”和“RoI Inspection”工具,以获取前方道路碎石块和限速标志的关键视觉信息,从而做出了更安全、更有依据的减速决策。解决长时程、高层级行为决策挑战的先进自动驾驶智能体。: 实验发现,为SOTA VLMs(如Claude Sonnet 4)提供视觉工具箱后,其决策能力普遍得到提升,例如联合准确率提升25.0%,推理质量提升26.1%,证明了主动获取视觉信息是VLM驾驶智能体的一个有前景的方向。

2025-07-30 07:30:25 690

转载 ICCV‘25 Highlight|浙江大学MaGS:统一动态重建与物理仿真三维表示!

MaGS 框架的核心是创建一种创新的“网格吸附高斯(Mesh-adsorbed Gaussian)”混合表示,它巧妙地结合了三维高斯泼溅(3DGS)的渲染灵活性与三角网格(Mesh)的结构化特性。然后,将这个新的被编辑过的网格作为引导网格,再次输入到学会了变形规律的网络中,即可渲染出具有同样高保真度纹理和外观的仿真结果。MaGS 的创新之处就在于,它不像传统方法那样用胶水把“皮肤”粘死在“骨骼”上,而是让“皮肤”能够像真实生物一样,在“肌肉”和“骨骼”运动时,进行合理且自然的微小滑动和调整。

2025-07-30 07:30:25 43

转载 干货 | 基于深度强化学习的轨迹规划(附代码解读)

但本身为了进一步衡量舒适性/效率等指标,会利用专家数据(高质量的人类驾驶数据)+ 不太好的驾驶行为数据共同训练出一个reward-model,因为强化学习是利用reward来指导模型训练,而上述描述的任务本身是为了学习生成reward,这个过程刚好相反,故一般把这些任务叫做逆强化学习。假设一个智能体在执行时序任务时,其动作本身可分解成系列状态概率转移任务,比如时间戳t下自己的状态(s), 根据状态转移矩阵(p),以一定概率执行了动作(a),得到了缓解给的反馈(r),同时动作本身又对环境做出了改变(s')。

2025-07-30 07:30:25 60

转载 ICCV‘25 Highlight|浙江大学MaGS:统一动态重建与物理仿真三维表示!

MaGS 框架的核心是创建一种创新的“网格吸附高斯(Mesh-adsorbed Gaussian)”混合表示,它巧妙地结合了三维高斯泼溅(3DGS)的渲染灵活性与三角网格(Mesh)的结构化特性。然后,将这个新的被编辑过的网格作为引导网格,再次输入到学会了变形规律的网络中,即可渲染出具有同样高保真度纹理和外观的仿真结果。MaGS 的创新之处就在于,它不像传统方法那样用胶水把“皮肤”粘死在“骨骼”上,而是让“皮肤”能够像真实生物一样,在“肌肉”和“骨骼”运动时,进行合理且自然的微小滑动和调整。

2025-07-30 07:30:25 206

转载 ICCV‘25 Highlight|浙江大学MaGS:统一动态重建与物理仿真三维表示!

MaGS 框架的核心是创建一种创新的“网格吸附高斯(Mesh-adsorbed Gaussian)”混合表示,它巧妙地结合了三维高斯泼溅(3DGS)的渲染灵活性与三角网格(Mesh)的结构化特性。然后,将这个新的被编辑过的网格作为引导网格,再次输入到学会了变形规律的网络中,即可渲染出具有同样高保真度纹理和外观的仿真结果。MaGS 的创新之处就在于,它不像传统方法那样用胶水把“皮肤”粘死在“骨骼”上,而是让“皮肤”能够像真实生物一样,在“肌肉”和“骨骼”运动时,进行合理且自然的微小滑动和调整。

2025-07-30 07:30:25 9

转载 更新了一些自驾求职的视频和面经......

这是一个给自动驾驶、具身智能、机器人方向同学求职交流的地方,目前近1000名成员了,成员范围包含已经工作的社招同学,如智元机器人、宇树科技、地瓜机器人、地平线、理想汽车、华为、小米汽车、momenta、元戎启行等公司。刚上传了几个嘉宾录制的求职类视频课程,主要关于小厂、大厂面试,秋招的校招如何准备、公司选择等主要问题,以及大模型、自动标注、端到端一些岗位的介绍和分析。这一点结合我们已有的优势,给大家汇总了面试题目、面经、行业研报、谈薪技巧、还有各类内推公司、简历优化建议服务。涉及校招、社招、实习等岗位。

2025-07-29 15:52:54 55

转载 基于Qwen2.5-VL实现自动驾驶VLM的SFT

微调后的模型被保存在 /home/hy/source/code/transformer/LLaMA-Factory/saves/Qwen2.5-VL-7B-Instruct/lora/train_2025-07-27-12-30-16 中, ui会显示loss进度和进度条。下面是图片 2022-07-14--14-32-55--11_first/0553.png 的一些对话. 对话内容在QA_from_CoVLA_zh.json。综合看来通过使用微调后的模型进行对话,可以获得更具参考价值的回答。

2025-07-29 09:01:35 55

原创 OmniRe全新升级!自驾场景重建色彩渲染和几何渲染双SOTA~

(c)和(d)不完整几何与伪影:基线方法在重建远处或被遮挡的物体时,容易产生不完整的、破碎的几何结构,而本文的方法能生成更连贯、更完整的场景。特别是在处理场景中的动态物体时,优势更为明显。然后,对两者的粗糙和中等尺度网格进行线性插值,生成用于新图像渲染的网格,使得我们的模型能够有效适应真实世界动态变化的相机特性,显著增强了方法的实用性和鲁棒性。b. 中间层(Intermediate Grid):一个中等尺寸的网格(例如4×4×2×12),在前一层的基础上,进一步处理区域性的光影变化,例如大块的阴影或光斑。

2025-07-28 07:30:50 761

转载 开放词汇分割新SOTA!Talk2DINO:让分割又快又准还懂人话~

在自注意力头的选择和聚合策略方面,在Pascal VOC数据集上,标准平均自注意力的嵌入表现出更好的性能,但在所有其他基准上,选择与文本CLS token最相似的注意力头嵌入的方法最有效,进一步验证了选择方法的稳健性。该方法通过一个轻量级的语言到视觉映射层,在无需对骨干网络进行大量微调的情况下,实现了文本概念与视觉补丁之间的细粒度对齐,并利用DINOv2的自注意力图来增强分割过程,包括新颖的背景清理程序,从而生成更自然、噪声更少的分割结果,有效区分前景目标与背景。,进而影响了基于密集预测的任务表现。

2025-07-28 07:30:50 49

转载 开源!智元机器人正式发布首个具身操作系统框架:智元灵渠OS

智元机器人联合创始人兼 CTO 彭志辉(稚晖君)作为唯一的具身智能代表,携灵犀 X2 人形机器人登场,以一场 “从工具到伙伴:人机协作的新边界” 为主题的人机对话惊艳全场,并重磅发布业界首个具身智能操作系统参考框架 “智元灵渠 OS” 开源计划,携手产业界共建开放生态。这场对话不仅是技术成果的展示,更传递出智元对人机关系的前瞻性思考:当机器人具备理解、预判、协同的能力,人机协作将突破传统边界,在工业、家庭、服务等场景创造全新价值,在此同时,我们也要去构建人机信任的边界。真正协作是建立在‘共识’的基础上。

2025-07-27 11:04:17 102

转载 自动驾驶为什么需要NPU?GPU不够吗?

的脉动网中,参与运算的矩阵元素按照特定顺序在阵列单元间流动,每个单元完成一次乘加操作后,将结果传递给下一个单元,数据一旦进入阵列,就会在内部持续流转并完成计算。阵列通常采用数据流驱动架构,深度优化数据在存储单元与计算单元间的流转路径,通过硬件化的激活函数单元、池化单元等,直接加速神经网络关键操作,减少数据搬运次数,提升计算效率,中间环节相比传统通用架构减少。更经济(响应时间,造价,能耗都更经济),就是因为阵列排列的简单计算单元,就在扮演神经网络的神经元,而它们之间联系的数据通路,就在扮演神经网络的权重。

2025-07-27 00:01:38 99

转载 从端到端到VLA,自动驾驶量产开始往这个方向发展...

第一章主要是针对端到端自动驾驶概括性的内容讲解,这一章老师会带大家盘一下端到端的发展历史,端到端这个概念是怎么来了,为什么从模块化的方法发展到端到端。为什么会出现二段式端到端?现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。这门课程是首个面向端到端自动驾驶进阶实战教程,我们期望能够推动端到端在工业界中的落地,助力更多想要加入到自动驾驶行业的同学真正理解端到端。

2025-07-27 00:01:38 102

原创 二段式端到端新SOTA!港科大FiM:从Planning的角度重新思考轨迹预测(ICCV‘25)

表6的结果突显了这一设计的优势。实验结果表明,我们的推理增强型预测器具备强大的能力,能够生成与场景布局高度吻合的、自信且可靠的未来轨迹,并在性能上达到了与现有最先进模型相当甚至更优的水平。此外,我们的工作强调了意图推理在运动预测中的关键作用,证实了强化学习(RL)范式在建模驾驶行为方面的可行性,并为未来在轨迹预测领域的研究建立了一个极具前景的基线模型。通过利用这一范式,我们的方法提供了有价值的奖励启发式信息,能够有效推理未来行为的意图,为解决运动预测任务固有的复杂性提供了信息丰富的先验。

2025-07-27 00:01:38 761

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除