自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3721)
  • 收藏
  • 关注

转载 卷完了!分享下我的自动驾驶求职经历(校招&社招)~

丰富的量产经验/项目、优秀的团队协作能力、快速的算法验证能力、“能吃苦”......技术面的时候,负责人最想看到你身上的优势是什么?自动驾驶之心平时积累了很多企业资源,大多是HR、项目负责人、技术负责人,从他们的角度上,我们更清楚真正的岗位需求。决定一起展开一个面向自动驾驶领域的求职面试课程,关注点是如何有效面试、如何突出自己的亮点,如何拿到高薪。各家的面试风格和内容是怎么样的?判断一个人有没有能力和水平,不仅仅看你做了哪些内容,更关注你的技术深度和总结出来的方法论,再详细点,是你真正解决了哪些问题?

2025-04-04 00:01:01 27

转载 保时捷高阶智驾花落某头部公司

作为高性能高颜值的豪华品牌,品牌调性比BBA高一个档次,是购买力非常强的潮男潮女们心中的最爱,尤其是江浙沪小姐姐们。22年,保时捷在国内销量曾一度逼近10万辆大关,连续8年稳坐保时捷全球最大单一市场的宝座。在性能上,保时捷赖以成名的百公里加速的能力,这种能力在油车时代是高端化的体现,现在正在廉价化,毕竟20万的电车都具备一脚电门下去就能实现两三秒百公里加速性能。为了智能化补课,除了采用国内智驾供应商,另外就是在不久前,保时捷对中国技术团队进行了第二次大规模扩建,重心是补齐座舱和智驾等智能化能力。

2025-04-04 00:01:01 21

转载 小米最新!CoGen:自动驾驶中基于自适应调节的3D一致视频生成

尽管由2D布局条件(例如高精地图和边界框)引导的预训练生成模型可以生成逼真的驾驶视频,但是实现具有高度3D一致性的可控多视图视频仍然是一项主要挑战。为了解决这个问题,本文引入了一种新的空间自适应生成框架CoGen,它利用了3D生成的当前进展来提高两个关键方面的性能:(i)为了确保3D一致性,本文首先生成高质量、可控的3D条件,以捕获驾驶场景的几何结构。本文引入了CoGen,这是一种新的框架,它利用详细的3D语义信息来生成具有增强的逼真性和3D一致性的高质量驾驶视频。自动驾驶感知(大模型、端到端自动驾驶。

2025-04-04 00:01:01 24

原创 暴拉MagicDrive 20%!西交DualDiff:自动驾驶首个MPI引导的环视视频生成奖励模型~

在BEV感知等下游任务中,DualDiff+ 展现出生成数据对感知模型的高度辅助价值:以生成的视频训练或评估感知算法,BEV语义分割任务中车辆类别的 mIoU 提升了 4.50%,道路类别 mIoU 提升了 1.70%;在扩散模型的训练中,FGM 根据前景目标(如车辆、行人)在图像中的投影区域动态生成权重掩码,对其像素赋予更高的损失权重,从而引导模型更加关注前景的细节还原。这类简化的条件编码存在明显局限,难以全面刻画真实驾驶场景的复杂性,导致与基于视角的图像生成模型不匹配,从而出现生成结果不准确等问题。

2025-04-03 07:31:15 579

转载 突破思维定式!Stop Overthinking:大模型轻量化推理技术最新综述

最近,专注于推理的 LLM(也称为大型推理模型 (LRM) [91])的出现,例如 OpenAI o1 [61] 和 DeepSeek-R1 [31],显著提高了它们在 System-2 推理领域 [8, 44](包括数学 [16, 35] 和编程 [7, 17])中的性能。与 LLM 中模型压缩技术的定义正交,例如量化 [27, 48] 或 kv-缓存压缩 [52, 103],它们专注于压缩模型大小并实现轻量级推理,LLM 中的高效推理强调通过优化推理长度和减少思考步骤来实现智能和简洁的推理。

2025-04-03 07:31:15 30

转载 当谈论端到端自动驾驶的时候,我们到底在谈论些什么

第一章为基础篇,主要为大家带来端到端基础相关内容,这一部分我们会从端到端的提出、端到端的分类、以及端到端数据集相关内容展开,大家比较关注的端到端数据集格式以及后续自己数据集的制作都会有涉及哦。课程对领域常用的纯视觉完全端到端方案、多模态完全端到端方案、专注于planner的端到端方案会有较深入的剖析。顾名思义,完全端到端是从传感器直接到规控;而专注于planner的端到端方案,如果深究的话,只能算狭义上的端到端,但更贴合当下的量产方案和任务,而且可解释性也较高,是目前主机厂和自动驾驶公司优先推行和落地的。

2025-04-03 07:31:15 15

转载 清华&华为!NuGrounding:面向自动驾驶的多模态3D视觉定位系统

涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!提出部分3D语义引导的混合训练方案(50% 3D语义+50%传统布局),在数据标注不全时仍保持鲁棒生成性能(FVD仅上升5.39)。

2025-04-03 07:31:15 37

转载 细节厘米级还原、实时渲染,MTGS方法突破自动驾驶场景重建瓶颈

然而,实验发现,简单地堆叠数据并不能带来重建效果的提升,反而可能损伤单轨迹下重建的场景模型,原因之一是这些数据在天气、光照上有较大差异,无法很好地对齐。其中,静态节点和外观节点共同决定表征静态背景的高斯球,前者提供高斯球的位置、旋转四元数、尺寸、透明度和球谐函数的首个参数,后者则决定球谐函数的其他参数。,依赖单一轨迹数据,如一条固定路线的摄像头录像,重建的场景只能在有限视角内逼真,无法支持车辆 “自由探索”。智能整合,使不同轨迹采集到的几何信息能互相补足,重建出几何信息更精准的驾驶场景。

2025-04-03 07:31:15 21

转载 如何理解今年端到端自动驾驶非常火的扩散模型?

涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!

2025-04-03 00:00:00 48

转载 Orin+3D激光雷达+TOF+2D激光雷达等配置拉满!自动驾驶人的第一台小车:黑武士

1年内支持售后(非人为损坏),邮费自付。保修期内因操作失误/修改代码等个人原因导致损坏的,我司提供免费维修。自动驾驶之心团队推出的教研一体轻量级解决方案,支持感知、定位、融合、导航、规划等多个功能平台,阿克曼底盘。原价34999元,现在支付定金1000元抵扣2000,由于订单已经启动,优先锁定的安排组装发货。我们测试了室内、室外、地库等场景下感知、定位、融合、导航规划等功能;以下为产品说明书部分内容,涉及硬件、传感器参数、软件、维修等内容。1.5m/s(最大可到2m/s)2D目标分割(语义SLAM)

2025-04-02 12:02:00 43

转载 再读Qwen2.5 Technical Report

具体来说,我们的缩放定律有助于确定关键的训练参数,如不同规模的密集模型和MoE模型的批量大小B和学习率μ。我们的实验涵盖了广泛的架构,包括参数规模从4400万到140亿的密集模型,以及激活参数从4400万到10亿的MoE模型,在规模从8亿到600亿词元的数据集上进行训练。这种筛选方法相较于我们之前用于Qwen2的方法有了重大改进,因为Qwen2在更大的多语言语料库上进行了扩展预训练,其增强的能力能够实现更细致的质量评估,从而在多种语言中更好地保留高质量训练数据,并更有效地过滤掉低质量样本。

2025-04-02 07:32:15 61

转载 CVPR‘25满分工作!TSP3D:高效3D视觉定位~

然而,由于在3D视觉基础任务中,3D场景表示应该与文本特征进行深度交互,由于大量的体素特征,基于稀疏卷积的架构对于这种交互效率低下。为此TSP3D提出了文本引导剪枝(TGP)和基于补全的addition(CBA),通过逐步区域剪枝和目标补全,以有效的方式深度融合3D场景表示和文本特征。与之前的单级方法相比,我们的方法实现了最高的推理速度,比之前的最快方法提高了100%的FPS。涉及30+自动驾驶技术栈学习路线,从0到一带你入门。自动驾驶之心是国内领先的技术交流平台,关注自动驾驶前沿技术与行业、职场成长等。

2025-04-02 07:32:15 39

转载 CVPR‘25满分工作!TSP3D:高效3D视觉定位~

然而,由于在3D视觉基础任务中,3D场景表示应该与文本特征进行深度交互,由于大量的体素特征,基于稀疏卷积的架构对于这种交互效率低下。为此TSP3D提出了文本引导剪枝(TGP)和基于补全的addition(CBA),通过逐步区域剪枝和目标补全,以有效的方式深度融合3D场景表示和文本特征。与之前的单级方法相比,我们的方法实现了最高的推理速度,比之前的最快方法提高了100%的FPS。涉及30+自动驾驶技术栈学习路线,从0到一带你入门。自动驾驶之心是国内领先的技术交流平台,关注自动驾驶前沿技术与行业、职场成长等。

2025-04-02 07:32:15 19

转载 小米汽车亏损62亿,雷军长舒一口气~

但对于飙车党而言,警言不痛不痒,之前雷军在直播时谈到SU7 ultra的安全问题时,表示要设置电子围栏,通过车辆的坐标位置来决定启用多少性能,如果定位不在赛道,那么就会限制其速度,目的就是为了防止城市飙车问题,不过这个电子围栏目前并未在量产车上装备。尤其现在汽车业务的出现,补齐了小米人车家全生态的最后一块拼图,这个护城河的建立往后只会越来越坚固,还能见缝插针吸收其他品牌的消费者过来,这方面小米眼馋的,还是苹果那帮用户。

2025-04-01 07:31:54 72

转载 备战秋招!大模型微调面试集锦~

这里也推荐下自动驾驶之心的多模态大模型课程,课程从通用多模态大模型,到大模型微调,最终在聚焦在端到端自动驾驶多模态大模型,基本上面试的东西课程里面都有介绍。训练时间几乎没有改善。但是更糟糕的是你增加了总体的 FLOPS。接乘以缩放系数 a 来减小浅层梯度更新值其实这块我有个自己的想法,e 和 a 是否也可以做衰减,随着训练过程逐渐减小,来避免loss spike的现。首先我们想象一下 ut 这个更新参数 的变化趋势进入正态分布的稳态之后,理想的更新参数变化趋势应该是方差越来越小,所有更新参数逐渐向0靠近。

2025-04-01 07:31:54 73

转载 还不知道怎么发论文?辅导来啦!端到端/大模型/BEV感知/3DGS等方向

辅导老师介绍:毕业时获得华为天才少年,在顶级AI会议如CVPR、ICCV、ECCV、NIPS等发表论文30余篇,引用量6000+。去年的成果还算不错,几个同学中了CVPR和ICRA等会议,今年和老师们沟通过后,准备继续辅导几名同学冲下顶会,感兴趣的同学可以咨询,辅导方向如下。辅导老师2介绍:在CVPR、ICCV、ICML、TPAMI、AAAI、ECCV上发表论文多篇;辅导老师介绍:国内TOP2博士,ECCV、CVPR发表论文多篇,多个主流感知方案的贡献者;端到端自动驾驶、OCC、BEV、世界模型方向;

2025-03-31 20:14:42 89

转载 你只缺一台黑武士!自动驾驶人的第一台小车

1年内支持售后(非人为损坏),邮费自付。保修期内因操作失误/修改代码等个人原因导致损坏的,我司提供免费维修。自动驾驶之心团队推出的教研一体轻量级解决方案,支持感知、定位、融合、导航、规划等多个功能平台,阿克曼底盘。原价34999元,现在支付定金1000元抵扣2000,由于订单已经启动,优先锁定的安排组装发货。我们测试了室内、室外、地库等场景下感知、定位、融合、导航规划等功能;以下为产品说明书部分内容,涉及硬件、传感器参数、软件、维修等内容。1.5m/s(最大可到2m/s)2D目标分割(语义SLAM)

2025-03-31 20:14:42 88

转载 Wayve全新世界模型GAIA-2来了~

提出无参数的基于KNN的图融合技术,通过余弦相似度计算LiDAR伪点云(FLt)与图像特征(FSt)的局部邻域关联,采用通道加权策略(Channel-weighted Sum)实现多模态特征的空间对齐。开发基于时空约束的半自动标注算法(ST-IAA),实现多模态数据在时序维度(0.1s级同步精度)和空间维度(厘米级配准误差)的精准对齐,支持动态场景的增量式知识更新。阶段2(GRPO强化推理极限) :引入GRPO算法,通过动态奖励机制(格式奖励+准确性奖励)推动模型突破推理边界,增强跨任务泛化性。

2025-03-30 16:27:41 125

转载 论文辅导来啦!端到端/大模型/BEV感知/3DGS等方向

辅导老师介绍:毕业时获得华为天才少年,在顶级AI会议如CVPR、ICCV、ECCV、NIPS等发表论文30余篇,引用量6000+。去年的成果还算不错,几个同学中了CVPR和ICRA等会议,今年和老师们沟通过后,准备继续辅导几名同学冲下顶会,感兴趣的同学可以咨询,辅导方向如下。辅导老师2介绍:在CVPR、ICCV、ICML、TPAMI、AAAI、ECCV上发表论文多篇;辅导老师介绍:国内TOP2博士,ECCV、CVPR发表论文多篇,多个主流感知方案的贡献者;端到端自动驾驶、OCC、BEV、世界模型方向;

2025-03-30 11:00:00 108

转载 VLM推理模型详细解读:Vision-R1

Vision-R1-7B的冷启动初始化采用Qwen-2.5-VL-7B-Instruct,在32个NVIDIA H800 80G GPU上进行2个epoch的监督微调,约需10小时。通过结合冷启动初始化和RL训练,Vision-R1实现了强大的数学推理能力,达到了与现有最先进的MLLMs相当的性能。本文的贡献包括首次探索将RL应用于MLLMs以提高推理能力,构建了一个高质量的多模态CoT数据集,并提出了一种有效的PTST策略来解决冷启动初始化后的过度思考问题。

2025-03-30 00:03:11 141

转载 CoVLA:自动驾驶VLA数据集~

测试了CoVLA的效果,可视化看起来使用GT caption的轨迹(蓝线)比使用预测caption的轨迹(红线)离GT(绿线)更远,说明好的caption对预测有辅助作用。文章统计了每个关键字对应的指标,发现以下关键字的轨迹误差较大,减速、左转、加速、弯道、右转,符合直觉。数据集依然存在不均衡的问题:自车静止和方向盘0度占据了数据集的绝大多数,数据不均衡现象十分严重。的驾驶视频构建了CpVLA数据集,包含详尽的传感器信息和全自动生成的语言文本描述。针对VLM的自动驾驶领域的数据集数据量较少,本文采集了。

2025-03-30 00:03:11 129

转载 北京智源研究院实习生招聘:端到端VLA方向

作为中国AI创新生态的重要推动者,研究院通过学术交流、技术开源和产业赋能,加速人工智能技术的进步与应用落地,助力北京建设国际人工智能创新中心。智元机器人、有鹿机器人、云深处、优必选、傅里叶机器人、开普勒机器人、小米、星海图、银河通用、星尘智能、逐际动力等。斯坦福大学、加州大学、清华大学、西湖大学、上海交大、上海人工智能实验室、港科大、港大、南洋理工、新加坡国立、ETH、南京大学等。深入调研具身智能领域相关的前沿技术,跟踪业内大模型领域的最新进展并推进相关研究,探寻将最新技术应用到具身智能领域的可能性。

2025-03-30 00:03:11 134

转载 如何构建自己的端到端标注数据?

老师还特别准备了闭环仿真DrivingGaussian算法的讲解,闭环仿真是端到端自动驾驶的刚需,在4D自动标注的基础上,进一步扩展同学们的视野。再进一步讲解OCC真值的生成流程,基于lidar的方案怎么做、基于视觉的方案怎么做、工程上如何稠密化点云和优化噪声、跨传感器遮挡的场景如何优化。我们又如何准备相关岗位的面试,什么内容是公司真正关注的?:自动驾驶量产算法功能验证可行后,下一步就需要推进场景泛化,不同城市、道路、天气、交通状况的数据如何挖掘,又如何保证标注算法的性能,仍然是当前业内量产的痛点;

2025-03-30 00:03:11 119

转载 华科 & 小米 | ORION:基于VLM引导动作生成的端到端框架~

本文主要着重于端到端自动驾驶的VLM方法在将VLM的推理空间与用于规划的纯数值行为空间对齐方面所面临的挑战。本文方法在具有挑战性的Bench2Drive数据集上实现了令人印象深刻的闭环性能,驾驶得分(DS)为77.74和成功率(SR)为54.62%,这比最先进的(SOTA)方法高出14.28的DS和19.61%的SR。得益于生成模型能够表征数据的潜在分布,本文通过生成规划器弥补了VLM的推理空间和轨迹的行为空间之间的差距,使VLM能够理解场景并且引导轨迹生成;自动驾驶感知(大模型、端到端自动驾驶。

2025-03-29 00:01:04 170

转载 为什么说不懂4D数据闭环,就做不好自动驾驶量产落地?

老师还特别准备了闭环仿真DrivingGaussian算法的讲解,闭环仿真是端到端自动驾驶的刚需,在4D自动标注的基础上,进一步扩展同学们的视野。再进一步讲解OCC真值的生成流程,基于lidar的方案怎么做、基于视觉的方案怎么做、工程上如何稠密化点云和优化噪声、跨传感器遮挡的场景如何优化。我们又如何准备相关岗位的面试,什么内容是公司真正关注的?:自动驾驶量产算法功能验证可行后,下一步就需要推进场景泛化,不同城市、道路、天气、交通状况的数据如何挖掘,又如何保证标注算法的性能,仍然是当前业内量产的痛点;

2025-03-29 00:01:04 148

转载 当我们在谈论世界模型时,究竟在讨论什么?

涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!

2025-03-28 22:02:53 123

转载 你只缺一台黑武士!科研&教学级自动驾驶全栈小车来啦~

1年内支持售后(非人为损坏),邮费自付。保修期内因操作失误/修改代码等个人原因导致损坏的,我司提供免费维修。自动驾驶之心团队推出的教研一体轻量级解决方案,支持感知、定位、融合、导航、规划等多个功能平台,阿克曼底盘。原价34999元,现在支付定金1000元抵扣2000,由于订单已经启动,优先锁定的安排组装发货。我们测试了室内、室外、地库等场景下感知、定位、融合、导航规划等功能;以下为产品说明书部分内容,涉及硬件、传感器参数、软件、维修等内容。1.5m/s(最大可到2m/s)2D目标分割(语义SLAM)

2025-03-28 19:30:38 133

原创 澳门大学最新!CoT-Drive:开启自动驾驶思维链时代,突破复杂场景理解瓶颈~

感知、预测、规划三位一体的自动驾驶架构虽然在端到端的趋势下,逐渐退出历史舞台,但是对于每个环节的理解和提升,也可以推动更好的模型设计和发展。作者使用提出的Highway-Text和Urban-Text数据集评估轻量级LM的场景理解能力,并在五个真实世界数据集(NGSIM、HighD、MoCAD、ApolloScape和nuScenes)上测试CoT-Drive的运动预测性能。一些近期的研究表明,LLMs不仅能提升常见交通场景下的运动预测性能,在需要深度理解上下文细节和多参与者交互的复杂场景中表现尤为突出。

2025-03-28 07:30:47 1008

转载 CVPR 2025 | MoManipVLA:通用移动操作VLA策略迁移!

尽管 MoManipVLA 在多任务上取得显著进展,但其仍依赖预训练模型的质量、存在搜索空间非凸局部最优问题以及长时任务规划不足,未来将通过引入全局优化方法、基于学习的搜索策略和集成任务规划模块等手段加以改进。实验结果显示,在仅 50 个样本的微调下,真实环境任务的成功率已达到 40%,证明了该方法在数据稀缺场景下的有效性。然而,现有的 VLA 研究主要聚焦于固定底座操作,由于缺乏对移动底座动作的预测能力,使其难以直接应用于移动操作场景。然而,现有的移动操作框架缺少大规模预训练,导致整体泛化性低下。

2025-03-28 07:30:47 165

转载 强化学习之路 | PPO算法的37个实现细节

前面的实现是一直走M步,但如果中间某步done=True了,后面全部的done都是True,这样在计算V值时只会计算单步的reward,序列决策的反馈就没有,数据学习效率不高。其次,ppo 是 on-policy 算法,学习完的数据只能丢弃重新收集,最好能充分利用数据,所以 mini batchs 能让 ppo “小步快跑“的充分学习,并通过 clip 的方式保证稳定性。这种并发是基操,但困难也很明显:1、很吃cpu,尤其是动作空间或状态空间很大的游戏,而一些重的env有时候很难并发。

2025-03-28 07:30:47 154

转载 北师香港浸会大学招收25秋季人工智能博士

项目介绍:BNBU研究型硕博具体要求参考官网介绍https://gs.uic.edu.cn/graduate/graduate1/yjxyjskc/Computer_Science_and_Technology.htm,亮点是全奖学生学费全免,博士每月津贴8300RMB,硕士6000RMB,提供会议交流津贴和补助等等。研究介绍:我的研究兴趣集中在三维视觉和生成式AI以及两者交叉领域,目前正在主持国自然青年基金一项以及若干合作课题,在ICCV、CVPR、ICRA、TIP等会议和期刊上有多篇论文发表。

2025-03-27 07:30:26 142

转载 当我们在谈VLA的时候,都有哪些技术栈?

这类端到端的范式依赖于先前广泛的研究先验,通过不同架构(diffusion/ transformer/dit),不同的模型大小,不同的应用场景(2d/3d),不同的任务需求(从头训/下游微调),产生了各类不同的方案,取得了不错的性能。无论是显示端到到VLA,还是隐式/分层端到端VLA,其中涉及到的模块、细节众多。隐式端到端VLA,则不同于前者,更加关注工作的可解释性,旨在利用当前的video diffusion模型实现未来状态的预测,再根据未来的状态通过逆运动学规律生成未来可执行的动作。

2025-03-27 07:30:26 154

转载 闭环仿真升级!ReconDreamer++:新视角性能暴涨23%~

(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,提出融合插值机制的管基约束迭代线性二次调节器(CILQR),通过动态扰动边界外推法构建多管约束集(Minkowski和),结合插值变量优化(λs, λd, λb)自适应调整约束紧缩程度,在保证鲁棒性的同时显著降低传统管基方法的保守性。

2025-03-27 07:30:26 178

转载 中山大学&鹏城实验室 | 面向主动探索的可信具身问答~

具身智能之心是国内首个面向具身智能领域的开发者社区,聚焦大模型、视觉语言导航、VLA、机械臂抓取、双足机器人、四足机器人、感知融合、强化学习、模仿学习、规控与端到端、机器人仿真、产品开发、自动标注等多个方向,目前近60+技术交流群,欢迎加入!,这是一个高质量、大规模的 EQA 基准,支持主动探索,解决了现有数据集存在的答案模糊性问题,并减少了对静态先验知识的依赖。,结合粗粒度边界探索和细粒度目标导向探索,提升了导航效率,实现对任务相关区域的精细探索,建立了 EQA 任务新的基线。

2025-03-26 07:30:36 139

转载 VINS作者、上海交通大学秦通老师带你搭建一套自主代客泊车系统

课程的每章会配备相应的实践项目,包括泊车所需软件环境安装、泊车定位、泊车感知、泊车建图、规划与控制,最后将每一章节的实践内容串在一起,在仿真环境中,实现一个完整的自主代客泊车系统。:自动化、计算机、人工智能、车辆工程等专业的本科生或研究生,希望掌握自主泊车系统开发技术并进行相关研究或实践;包含相机模型、语义分割、语义定位与建图、规划与控制等核心算法的理论讲解,并且也会分享端到端泊车的新技术,1. 覆盖自主泊车的全栈技术体系,从系统设计到核心模块的梳理;课程的实践项目,该课程覆盖自主泊车的全栈技术体系,

2025-03-26 07:30:36 164

原创 世界模型再进化!MiLA:突破智驾视频生成壁垒(南大&小米)

为此,我们提出MiLA——基于潜在扩散模型 (Latent Diffusion Models, LDM)的鲁棒视频生成框架,仅依赖简单场景描述或路径点(waypoints)控制信号,生成长期高保真视频(图1对比了MiLA与Vista的生成效果)。如图3所示,MiLA基于输入的参考帧生成多视角未来帧,其中V、N、S分别表示视角数量、条件帧数和总噪声帧数。在本文中,我们提出了MiLA——一种基于世界模型框架的驾驶场景视频生成方法,能够根据先前帧和未来路径点生成视频。:通过锚定帧生成与插值分离的策略提升效率。

2025-03-26 07:30:36 998

转载 自动驾驶闭环仿真指南!国内首个3DGS全栈教程:四大体系全掌握~

又是如何渲染出二维图像?为此,我们选择了当下应用最广泛的gsplat,其对3DGS的pytorch版本进行了代码重构的开源项目,并提升了原版代码的训练效率,且仓库十分活跃,目前已经支持很多主流算法,非常适合科研及工程应用。动态场景重建能够建模物体随时间运动的变化,世界不是静止的,物体在移动,色彩在变化。为此,我们联合业内头部自动驾驶公司算法专家,联合展开了业内首门面向3DGS全栈实战小班课,Cover 3DGS的各个子领域,让大家真正能够学得透彻,后期配有代码实战讲解,助力大家真正从实现的角度上搞懂算法。

2025-03-26 07:30:36 179

转载 南大&小米最新工作!MiLA:环视视频生成世界模型新SOTA!

涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!基于大型视觉语言模型(VLMs)设计自动化流水线,结合驾驶领域错误模式(如传感器误判、逻辑不一致、领域概念误解等),生成高真实性干扰项(Distractors)。

2025-03-25 07:31:13 139

转载 英伟达最新!GR00T N1:面向通用人形机器人的开源基础模型~

这表明 GR00T N1 模型在实际的类人机器人操作场景中,相较于扩散策略基线模型,能够更可靠地完成任务,同时也体现了该模型在数据稀缺条件下良好的学习能力和适应性,即不需要大量的真实世界数据就能取得较好的任务执行效果。在后训练中,还探索了使用神经轨迹增强数据的方法,为每个下游任务生成神经轨迹,并根据任务需求调整视频模型生成多视图或长视野轨迹,以提高模型在低数据场景下的学习能力。预训练:在预训练阶段,模型在多种来源的数据上进行训练,包括标注的视频数据集、合成生成的数据集和真实机器人轨迹。

2025-03-25 07:31:13 201

原创 强强联手!清华&UCLA&NTU推出V2X-Radar数据集:重新定义车路协同感知边界~

为支持多种感知任务研究,数据集被细分为用于协同感知的V2X-Radar-C子数据集、用于路侧感知的V2X-Radar-I子数据集和用于单车感知的V2X-Radar-V子数据集,并对相关感知算法进行了基准测试。(3) 我们分别在V2X-Radar-C协同感知、V2X-Radar-I路侧感知和V2X-Radar-V单车感知三个子数据集上,针对现有算法开展了实验验证,并构建算法基准,以促进该领域的后续研究。这类问题的本质在于,单车仅能通过单一视角感知环境,无法获取全局信息,从而影响导航决策的可靠性。

2025-03-25 07:31:13 876

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除