自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4665)
  • 收藏
  • 关注

转载 简历直推 | 驭势科技招聘规划算法工程师!

熟悉常用的路径规划方法,如混合A*、Lattice、QP、MPC等,并有相关的项目经验;研发满足复杂场景和任务要求的无人驾驶轨迹规划算法,保证无人车驾驶的安全、平顺行驶。更多自动驾驶的技术进展、行业动态、求职内推,欢迎加入自动驾驶之心知识星球!具有丰富的Linux系统下C/C++语言编程经验和良好的编程规范;规划算法工程师(工作地点:北京房山),薪资面议。学历背景优秀,或有智能驾驶相关行业大厂背景;了解车辆运动学、动力学、建模相关知识;熟知基本算法和算法优化的方法和思路;扎实的数学基础和数学建模能力;

2025-11-24 08:01:58 11

转载 研二发的论文,秋招用上了!

无论你目标是CCF-A/B/C、SCI1-4区,还是EI会议,这些 “大牛导师” 都从选题、调研、idea验证、代码、实验、润色、投稿、直至中稿一站式科研服务。A:我们有精准匹配系统:填完咨询表后,学术顾问会根据你的研究方向、目标期刊、基础水平,从300+导师中筛出3-5位最契合的,你选满意的再开始辅导。如果你现在面临导师放养,在论文写作过程中,你时常陷入选题迷茫、框架混乱、论证无力的困境,迟迟无法产出满意的论文,不妨考虑寻求专业助力,在读计算机专业硕、博,导师放养,无人指导,希望获取论文创新思路。

2025-11-24 08:01:58 15

转载 认知驱动下的小米智驾,从端到端、世界模型再到VLA......

星球内部的成员来自国内外知名高校实验室、自动驾驶相关的头部公司,其中高校和科研机构包括但不限于:上海交大、北京大学、CMU、清华大学、西湖大学、上海人工智能实验室、港科大、港大、南洋理工、新加坡国立、ETH、南京大学、华中科技大学、ETH等等!针对2025年最火的自动驾驶VLA,我们详细梳理了最新的综述、VLA开源数据集、作为语言解释器的相关算法、模块化VLA、端到端VLA和推理增强VLA,更有诸多关于VLA量产的讨论,在这里有你想知道的一切~目前星友面对面已经开展到了第四期,我们聊技术、聊趋势、聊变化。

2025-11-24 08:01:58 20

转载 端到端量产这件「小事」,做过的人才知道有多痛

由于无法保证模型直出会有100%的准确率,因此会通过一些轨迹的平滑优化算法来使得最终输出的轨迹更加的稳定和可靠,本章会介绍目前一些常用的轨迹平滑算法,既有多模态轨迹打分搜索的算法,也有轨迹平滑的算法。最后的一章重点会对量产的一些经验进行分享,会从数据、模型、场景、规则等多个视角来剖析如何使用合适的工具和手段解决相应的问题,当面临一个实际的可落地的系统时,如何更合理的选用不同的策略和方法,从而能够快速提升一个系统的能力边界。而在端到端时代,感知任务的合并,规控算法的learning化已是绝对的主流。

2025-11-24 08:01:58 4

转载 大模型技术学习过程梳理:Agent、RAG、通用大模型等......

星球内部的嘉宾正在快速扩张中,我们邀请了来自国内外知名高校实验室、大模型/互联网相关的头部公司,其中高校和科研机构包括但不限于:上交、清华、北京大学、上海人工智能实验室、港科大、港大等等!为了构建一个专业的交流社区,我们目前已经邀请到了40+学术界和工业界的大佬,他们来自国内外知名高校实验室、大模型/互联网相关的头部公司,其中高校和科研机构包括但不限于:上交、清华、北京大学、上海人工智能实验室、港科大、港大等等!但还有相当多的同学卡住了,比如算力的问题,自建数据集的问题,还有模型优化、项目实战的问题等。

2025-11-23 10:02:43 24

转载 宇树这次堵死了骗融资的路

就比如我是个人开发者,我现在买台G1-D回家,就自己在家通过遥控采集数据,采集完了以后,宇树居然还提供现成的模型还有训练平台!现在随着π0.5、gen0出来,你会发现大家早就不满足看叠衣服了,要看你连续规划的能力,看你自主对话并做出肢体反馈的能力。市场上有不少二道贩子,专门买了G1来做租赁,做跳舞表演,各大商场巡回演出,主要是满足用户的好奇心。放在25年底,你拿个叠衣服的VLA demo出来,根本拿不出手,更不用说,现在门槛降低0的情况了。到了25年底,跟着小姐姐学跳舞和连续后空翻,大家都觉得理所应当了。

2025-11-22 10:01:13 56

转载 做了一份3DGS的学习路线图,面向初学者

整体上第二章的设计思路是带大家先打好基础,先详细梳理3DGS的原理部分及核心伪代码,接着讲解动态重建、表面重建、鱼眼重建和光线追踪的经典文章和最新的算法,由点及面层层深入。作为一个新兴的技术栈,3DGS目前已经在自动驾驶、医疗、虚拟现实和游戏等领域获得了很广泛的应用,目前主流的方向可以分为2DGS/3DGS/4DGS和前馈GS。课程将详细的讲解3DGS的算法原理,细粒度的拆分主流的技术方向,深入探索在自动驾驶中的应用及重要的研究方向,并配备Project进行实践。

2025-11-22 10:01:13 54

转载 基于Qwen3-VL的自动驾驶场景实测

这让我们有理由相信:未来,基于通用大模型的自动驾驶系统,或许不再需要海量场景数据的反复打磨,而是通过“常识推理+多模态理解”的方式,实现更高效、更泛化、更可信的驾驶决策。它不仅能“看到”图像中的内容,更能“理解”场景背后的逻辑与风险,甚至在未经过专门训练的情况下,展现出接近人类驾驶员的常识判断与安全意识。,却能对复杂交通场景做出合理、连贯、甚至带有“安全意识”的判断——这让我们看到了通用视觉语言模型在垂直领域中落地的更多可能。基准中的部分图像,以及基准中的一些中翻后的问题。👨‍🎓:图中的交通标志是什么?

2025-11-22 10:01:13 86

转载 NeurIPS‘25 | 博世最新D2GS:无需LiDAR的自驾场景重建方案

近年来,3DGS在自动驾驶领域的城市场景重建中展现出巨大潜力。然而,当前的城市场景重建方法通常依赖于多模态传感器输入,例如激光雷达和图像。i)需要对激光雷达与其他传感器之间进行精确的时空标定,因为它们可能并非同时捕获数据;ii)当激光雷达和相机安装在不同位置时,空间未对准会导致重投影误差。为了避免获取精确激光雷达深度的困难,本文提出了 D²GS,在这项工作中,获得了与激光雷达效果相当,但更密集、更精确的几何先验。🚀 直播精华看不够?一种无需激光雷达的城市场景重建框架。>>直播和内容获取转到 →。

2025-11-21 08:02:06 2

转载 NeurIPS‘25 | 博世最新D2GS:无需LiDAR的自驾场景重建方案

近年来,3DGS在自动驾驶领域的城市场景重建中展现出巨大潜力。然而,当前的城市场景重建方法通常依赖于多模态传感器输入,例如激光雷达和图像。i)需要对激光雷达与其他传感器之间进行精确的时空标定,因为它们可能并非同时捕获数据;ii)当激光雷达和相机安装在不同位置时,空间未对准会导致重投影误差。为了避免获取精确激光雷达深度的困难,本文提出了 D²GS,在这项工作中,获得了与激光雷达效果相当,但更密集、更精确的几何先验。🚀 直播精华看不够?一种无需激光雷达的城市场景重建框架。>>直播和内容获取转到 →。

2025-11-21 08:02:06 11

转载 一边是自驾就业哀鸿遍野,一边是公司招不到人......

无论你目标是CCF-A/B/C、SCI1-4区,还是EI会议,这些 “大牛导师” 都从选题、调研、idea验证、代码、实验、润色、投稿、直至中稿一站式科研服务。A:我们有精准匹配系统:填完咨询表后,学术顾问会根据你的研究方向、目标期刊、基础水平,从300+导师中筛出3-5位最契合的,你选满意的再开始辅导。大家普遍挺焦虑的,行情确实不好,应届生找工作难,能拿到一个差强人意的offer就不错了。A:不同的分区价格不同,我们会根据你的情况给你做详细的介绍,以及如何帮助你达到你的目标。

2025-11-21 08:02:06 24

转载 NeurIPS‘25 | 博世最新D2GS:无需LiDAR的自驾场景重建方案

近年来,3DGS在自动驾驶领域的城市场景重建中展现出巨大潜力。然而,当前的城市场景重建方法通常依赖于多模态传感器输入,例如激光雷达和图像。i)需要对激光雷达与其他传感器之间进行精确的时空标定,因为它们可能并非同时捕获数据;ii)当激光雷达和相机安装在不同位置时,空间未对准会导致重投影误差。为了避免获取精确激光雷达深度的困难,本文提出了 D²GS,在这项工作中,获得了与激光雷达效果相当,但更密集、更精确的几何先验。🚀 直播精华看不够?一种无需激光雷达的城市场景重建框架。>>直播和内容获取转到 →。

2025-11-21 08:02:06 29

转载 驭势科技 | 规划算法工程师招聘(可直推)

熟悉常用的路径规划方法,如混合A*、Lattice、QP、MPC等,并有相关的项目经验;研发满足复杂场景和任务要求的无人驾驶轨迹规划算法,保证无人车驾驶的安全、平顺行驶。更多自动驾驶的技术进展、行业动态、求职内推,欢迎加入自动驾驶之心知识星球!具有丰富的Linux系统下C/C++语言编程经验和良好的编程规范;规划算法工程师(工作地点:北京房山),薪资面议。学历背景优秀,或有智能驾驶相关行业大厂背景;了解车辆运动学、动力学、建模相关知识;熟知基本算法和算法优化的方法和思路;扎实的数学基础和数学建模能力;

2025-11-21 08:02:06 32

转载 工业界算法专家带队!面向落地的端到端自动驾驶小班课

由于无法保证模型直出会有100%的准确率,因此会通过一些轨迹的平滑优化算法来使得最终输出的轨迹更加的稳定和可靠,本章会介绍目前一些常用的轨迹平滑算法,既有多模态轨迹打分搜索的算法,也有轨迹平滑的算法。最后的一章重点会对量产的一些经验进行分享,会从数据、模型、场景、规则等多个视角来剖析如何使用合适的工具和手段解决相应的问题,当面临一个实际的可落地的系统时,如何更合理的选用不同的策略和方法,从而能够快速提升一个系统的能力边界。而在端到端时代,感知任务的合并,规控算法的learning化已是绝对的主流。

2025-11-21 08:02:06 42

转载 自动驾驶三大技术路线:端到端、VLA、世界模型

除了两个模块之间的输出从 基于人类可理解的抽象输出变为特征向量,在训练方式上,这个阶段的模型必须支持跨模块的梯度传导 —— 两个模块均无法独立进行训练,训练必须通过梯度传导的方式同时进行。多模态信息的统一表征:语言作为通用语义载体,实现了视觉、语音、导航等异构信息的端到端对齐,解决了传统架构的接口瓶颈问题。决策和规划模块:根据导航信息,并在接受上游的感知和定位信息的基础上,同时结合自车的当前状态,对当前环境进行分析并做出具体决策,以在有限的时间范围内规划出满足安全、舒适等约束条件的可行驶轨迹。

2025-11-21 08:02:06 152

原创 理想一篇中稿AAAI‘26的LiDAR生成工作 - DriveLiDAR4D

为缓解这一问题,我们提出先合成物体的点云,再将其作为条件引导模型生成完整场景。此外,值得注意的是,DriveLiDAR4D能够生成保持时序一致性的激光雷达场景序列,而RangeLDM和Text2LiDAR仅能生成孤立的单个激光雷达场景。我们在nuScenes和KITTI数据集上对DriveLiDAR4D进行了评估,在nuScenes数据集上实现了743.13的FRD分数和16.96的FVD分数,超越了当前最先进方法UniScene,FRD性能提升37.2%,FVD性能提升24.1%。

2025-11-20 08:03:58 418

转载 和港校自驾博士交流后的一些分享......

星球内部的成员来自国内外知名高校实验室、自动驾驶相关的头部公司,其中高校和科研机构包括但不限于:上海交大、北京大学、CMU、清华大学、西湖大学、上海人工智能实验室、港科大、港大、南洋理工、新加坡国立、ETH、南京大学、华中科技大学、ETH等等!关于申博的一些建议:对研三还未申到博士的同学,可以多联系高校老师做RA,不一定要完全匹配老师的方向,自己带着方向找老师也是一种优势,有的老师可能已经想开自驾方向的博士了,但精力上抽不开身,自驾和具身作为现在现在很火的方向,很多老师都不排除。自动驾驶VLA的学习路线。

2025-11-20 08:03:58 41

转载 跨越“仿真到实车”的鸿沟:如何构建端到端高置信度验证体系?

在受控光照环境(如光学暗室)和真实户外场景中,分别放置标准棋盘格、Macbeth色卡,或在可复现的真实环境中(如测试场的高速路段)设计特定场景(如空旷道路巡航、前车跟随),在仿真环境中精确复现该场景(包括车辆轨迹、道路几何与材质)。例如,仿真场景中的车速分布、车头时距分布、车型比例等,如果与特定道路(如城市快速路)在特定时段(如晚高峰)的真实数据存在显著差异,那么在该场景下进行的测试将失去统计学意义[6]。通过对比真实传感器采集的深度数据与仿真渲染的深度图,可以精确评估场景的几何误差(MAE/RMSE)。

2025-11-20 08:03:58 81

原创 理想一篇中稿AAAI‘26的LiDAR生成工作 - DriveLiDAR4D

为缓解这一问题,我们提出先合成物体的点云,再将其作为条件引导模型生成完整场景。此外,值得注意的是,DriveLiDAR4D能够生成保持时序一致性的激光雷达场景序列,而RangeLDM和Text2LiDAR仅能生成孤立的单个激光雷达场景。我们在nuScenes和KITTI数据集上对DriveLiDAR4D进行了评估,在nuScenes数据集上实现了743.13的FRD分数和16.96的FVD分数,超越了当前最先进方法UniScene,FRD性能提升37.2%,FVD性能提升24.1%。

2025-11-20 08:03:58 574

原创 理想一篇中稿AAAI‘26的LiDAR生成工作 - DriveLiDAR4D

为缓解这一问题,我们提出先合成物体的点云,再将其作为条件引导模型生成完整场景。此外,值得注意的是,DriveLiDAR4D能够生成保持时序一致性的激光雷达场景序列,而RangeLDM和Text2LiDAR仅能生成孤立的单个激光雷达场景。我们在nuScenes和KITTI数据集上对DriveLiDAR4D进行了评估,在nuScenes数据集上实现了743.13的FRD分数和16.96的FVD分数,超越了当前最先进方法UniScene,FRD性能提升37.2%,FVD性能提升24.1%。

2025-11-20 08:03:58 782

原创 理想一篇中稿AAAI‘26的LiDAR生成工作 - DriveLiDAR4D

为缓解这一问题,我们提出先合成物体的点云,再将其作为条件引导模型生成完整场景。此外,值得注意的是,DriveLiDAR4D能够生成保持时序一致性的激光雷达场景序列,而RangeLDM和Text2LiDAR仅能生成孤立的单个激光雷达场景。我们在nuScenes和KITTI数据集上对DriveLiDAR4D进行了评估,在nuScenes数据集上实现了743.13的FRD分数和16.96的FVD分数,超越了当前最先进方法UniScene,FRD性能提升37.2%,FVD性能提升24.1%。

2025-11-20 08:03:58 836

原创 理想一篇中稿AAAI‘26的LiDAR生成工作 - DriveLiDAR4D

为缓解这一问题,我们提出先合成物体的点云,再将其作为条件引导模型生成完整场景。此外,值得注意的是,DriveLiDAR4D能够生成保持时序一致性的激光雷达场景序列,而RangeLDM和Text2LiDAR仅能生成孤立的单个激光雷达场景。我们在nuScenes和KITTI数据集上对DriveLiDAR4D进行了评估,在nuScenes数据集上实现了743.13的FRD分数和16.96的FVD分数,超越了当前最先进方法UniScene,FRD性能提升37.2%,FVD性能提升24.1%。

2025-11-20 08:03:58 946

转载 Physical Intelligence团队正式发布π*0.6

这意味着不仅要利用示范数据,更需要整合自主收集的实践数据,使策略能够修正实际部署中出现的错误,在人类远程操作水平之上提升执行速度与鲁棒性,并适应新的部署环境。虽然基于强化学习的自主实践理论基础早在数十年前就已确立,但要将这些原理融入通用且可扩展的机器人学习系统仍面临重大挑战:为大型模型设计可扩展且稳定的强化学习方法、处理来自不同策略的异构数据,以及在奖励信号可能模糊或随机的现实环境中建立具备奖励反馈的强化学习训练机制。通过该奖励函数,训练价值函数预测成功片段的(负的)剩余成功步数,以及失败片段的大负值。

2025-11-19 08:01:22 53

转载 AI Day直播 | WorldSplat:用于自动驾驶的高斯中心前馈4D场景生成

近年来,驾驶场景生成与重建技术取得的进展,在提升自动驾驶系统性能方面展现出显著潜力 —— 这类技术能够生成可扩展、可控制的训练数据。与之相对,近期的 3D/4D 重建类方法虽大幅改进了真实驾驶场景的新视角合成效果,却本质上缺乏生成能力。在基准数据集上开展的大量实验表明,WorldSplat 能够有效生成高保真、时空一致的多轨迹新视角驾驶视频。引入融合多模态信息的 4D 感知潜在扩散模型,以前馈方式生成像素对齐的 4D 高斯分布。利用增强型视频扩散模型,对基于这些高斯分布渲染出的新视角视频进行优化。

2025-11-19 08:01:22 77

原创 做自动驾驶VLA的这一年

不过,这个领域现在有个很大的瓶颈,就是缺少大规模、高质量、同时包含视觉画面、详细语言描述和精确行动轨迹的数据集,这直接限制了更可靠、更可解释的端到端自动驾驶模型的研发。具体来说,是通过离线模拟,在同一个视觉场景下生成多种可能的指令-行动组合(比如加速、变道,甚至是“驶向某物体”),这样模型就不能只依赖视觉线索,而必须认真理解语言指令才能做出反应。更重要的是,它在保持顶尖驾驶水平的同时,在视觉问答和评论生成这些语言任务上也表现非常出色,充分证明了它的多任务能力是真实有效的。描述“右转”时,就预测右转轨迹。

2025-11-19 08:01:22 592

转载 做了一份端到端进阶路线图,面向落地求职......

现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。目前从事多模态感知、自动驾驶VLA、大模型Agent等前沿算法的预研,并已主持和完成多项自动驾驶感知和大模型框架工具,拥有丰富的自动驾驶、大模型研发和实战经验。这门课程则聚焦在端到端自动驾驶的宏观领域,梳理一段式/两段式方向的重点算法和理论基础,详细讲解了BEV感知、大语言模型、扩散模型和强化学习。

2025-11-18 08:02:54 41

转载 具身界影响力最大的两位博士创业了!

这两位大佬的名字并不陌生,Tony还没完成斯坦福的phd(目前dropout),在校期间参与了ALOHA、ALOHA2、Mobile ALOHA等一系列很有影响力的工作。这两天刷到了sundayrobotics,following的2位大佬也都加入创业了(底部是抱抱脸co-founder的先忽略)。斯坦福大学计算机科学专业的三年级博士生(dropout),提出ALOHA、ALOHA2、Mobile ALOHA等方案。更多产业信息,欢迎加入我们的具身之心社区,和近200家公司和机构成员一起交流。

2025-11-18 08:02:54 70

转载 谁偷走了斑马智行的梦想?

2020年7月9日世界人工智能大会,张春晖演讲,将斑马定义为一个"人车路融合的感知、连接、计算平台",这意味着,斑马于车企的意义,正在从倾向于提供打包(端到端)智能车机系统方案的供应商,转向一个能够提供各种基础能力与模块,供车企进行深度开发的全行业平台。据悉,为了争取小股东同意港股上市,阿里最终大幅调低斑马公司估值降低小股东投资成本,而从天眼查和企查查等平台的资方持股份额可以看到(由于两个平台的更新进度不一致,由此可推算出估值变化),国和斑际的最新股比已经从2.15%增加到了3.81%。

2025-11-18 08:02:54 132

转载 顶级四校联手打造OmniVGGT:全模态视觉几何Transformer!

实际应用中,辅助信息随处可见:VR/AR有RGB-D数据、自动驾驶有激光雷达点云、机器人有相机参数,但现有方法要么只能用一种辅助信息,要么最多处理两种(比如RGB+深度),没法灵活适配不同场景。OmniVGGT就是要解决“信息浪费”和“适配性差”的问题——不管有多少种、多少比例的辅助信息,都能充分利用,还不影响纯RGB输入时的性能。随机多模态融合策略:训练时随机采样模态子集,让模型在测试时能接受任意数量的模态输入,学到更鲁棒的空间表示,不会过度依赖辅助信息。

2025-11-17 08:03:26 79

转载 特斯拉3D重建可以参考的前馈GS算法有哪些?

此外,为了进一步校正错误的高斯函数,我们提出了一个调制融合模块,该模块基于输入参考图像的渲染质量和当前的联合特征,重新加权大尺度高斯函数的不透明度,即高斯修复。作者指出,与之前的LRM不同,之前的LRM需要精心设计额外的(三平面)NeRF 标记来进行重建,GS-LRM将输入(二维图像)和输出(三维高斯)在同一个像素空间中对齐,沿射线方向每个像素预测一个高斯。如上图所示,DepthSplat首先利用预训练的单目深度特征,构建了一个鲁棒的多视图深度模型,从而实现高质量的前馈三维高斯分布重建。

2025-11-17 08:03:26 95

转载 FSD v14里面藏了VLA吗?谁在定义自动驾驶下一代方案:VLA vs WA的一场深入探讨......

研究成果主要集中在目标检测、跟踪,从2019年到2024年专注于智能驾驶算法的开发,主导过多个行车和泊车量产项目的落地。今天自动驾驶之心将为大家带来一场重量级的智驾圆桌,汇聚学术界和工业界的多元观点。这一场圆桌将围绕VLA、世界模型展开极其深入而全面的讨论,包括世界模型和VLA的各种形态,在产业界落地的进展和结合二者的可能性。会谈及近期特斯拉,理想在ICCV发表的技术报告,DriveVLA-W0和世界模型的技术讨论等等。11月17日晚,一场关于自动驾驶世界模型和VLA的深度探讨!地平线HSD实车表现亮眼。

2025-11-17 08:03:26 272

转载 秋招太难了,坚持!就有好日子了......

无论你目标是CCF-A/B/C、SCI1-4区,还是EI会议,这些 “大牛导师” 都从选题、调研、idea验证、代码、实验、润色、投稿、直至中稿一站式科研服务。A:我们有精准匹配系统:填完咨询表后,学术顾问会根据你的研究方向、目标期刊、基础水平,从300+导师中筛出3-5位最契合的,你选满意的再开始辅导。大家普遍挺焦虑的,行情确实不好,应届生找工作难,能拿到一个差强人意的offer就不错了。A:不同的分区价格不同,我们会根据你的情况给你做详细的介绍,以及如何帮助你达到你的目标。

2025-11-16 00:01:55 50

转载 楼天城:VLA帮不了L4

世界模型带来的主要是学习方式的改变——人类有两种学习模式:一种是模仿学习,方便快捷,也没有不确定因素,但学生很难超过老师;大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制。在次年,疫情来袭,他认为这反而为自动驾驶提供了一个潜心研究的「蛰伏期」:“那段时间,大家的心态平比较淡一些,这帮助团队撑过了那段真空期。的升级形态)下棋时,如果出现了不理解的招数,他会下意识觉得是因为「身为人类的自己太蠢了」。

2025-11-16 00:01:55 57

转载 扩散语言模型的潜力被严重低估了!新国立发现可全面超越自回归

然而,数据的重复使用可能会导致污染和记忆化风险,如果去重和审计机制不完善,可能会影响DLM模型的安全性和隐私性,尤其是在超密集训练中。另外,DLM在实际部署时的系统架构仍不如AR模型成熟,目前的实验主要集中在英语数据上,多语言、跨模态和长上下文的应用仍需要进一步的研究。实验中,DLM和AR模型的规模从1B到8B参数不等,训练仍然在1B独特token上进行,训练周期为96个epoch。(低、中、高质量),并对1B参数的AR和DLM模型进行了训练,使用1B独特token进行训练,共训练96个epoch。

2025-11-16 00:01:55 62

转载 英伟达长达41页的自驾VLA框架!因果链推理,实车可部署

点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近30个方向学习路线>>自动驾驶前沿信息获取→自动驾驶之心知识星球论文作者 | Yulong Cao等编辑 | 自动驾驶之心英伟达许久不见自动驾驶方向的论文工作,昨天直接放了个大招,难得啊。。。一篇长达41页的自动驾驶VLA框架 — Alpamayo-R1。Alpamayo-R1指出基于模仿学习的端到端架构,在长尾场景中的表现能力很差,这是由于监督信号稀疏并且因果推理的理解能力不足。另外现有自驾VLA的框架没办法显式约束思维链和决策行为之间的关

2025-11-15 11:00:46 98

转载 万字长文总结多模态大模型最新进展(Modality Bridging篇)

作者 | YiFan-Zhang 编辑 | 大模型之心Tech原文链接:https://zhuanlan.zhihu.com/p/688215018点击下方卡片,关注“大模型之心Tech”公众号戳我-> 领取大模型巨卷干货本文只做学术分享,如有侵权,联系删文,欢迎添加小助理微信AIDriver004做进一步咨询多模态大型语言模型(MLLM)最近已成为一个新兴的研究热点,它将强大的大型语言模型(LLMs)作为大脑来执行多模态任务。 MLLM的惊人新能力,如基于图像撰写故事和无OCR的数学推理,在传统方法中很少

2025-11-15 11:00:46 185

转载 小鹏刘先明:VLA 2.0的「涌现」过程极其突然......

VLA的核心方法,是将连续的输入信号(如视频帧、传感器数据等)离散为Token序列,通过以Transformer为主的架构进行特征编码与上下文建模,最终再生成离散的Token序列作为输出,并基于自回归机制预测下一个文字Token,以实现序列生成。”米良川称,他看到一位网友问,能不能把机器人做成她妈妈的样子,因为她妈妈上个月刚刚去世。刘先明介绍称,摄像头采集的原始数据一般为28比特,但在将其转换为RGB格式时,会转换为12比特,有16比特的信息损失,换算成动态范围,其值为2的16次方。

2025-11-14 08:01:53 121

转载 工程师变身AI“指挥者”,吉利与阿里云的软件开发变革实验

阮航分享了一个实例:一位新入职的工程师需要修改一个有着数年历史的核心模块,通过通义灵码的代码解释功能,他得以快速理解原作者的设计意图和复杂的依赖关系,将原本预估需要一周的熟悉过程缩短到了两天。当车企开始用软件的方式思考问题,当云厂商深入到制造业的具体场景,产业边界的模糊或许正是创新发生的地方。维护和迭代这些遗留代码的挑战尤为严峻,很多代码之所以存在,可能是为了绕过特定的硬件约束,或者是为了处理某些复杂的工况。流水线等研发工具链的集成,通义灵码可以在编码阶段就进行逻辑预检,提升代码的规范性和健壮性。

2025-11-13 08:02:33 83

转载 熬过「真空期」的小马智行,已经迎来了势不可挡的正循环

而如今,小马智行的技术瓶颈突破后,伴随政策的成熟,合作伙伴的增加,已经在国内四大一线城市——北京、上海、广州、深圳开展全无人Robotaxi收费运营服务,并通过与丰田、北汽、广汽等车企的合作,共同推进自动驾驶车辆的研发与量产。楼天城在今年曾表示,自动驾驶从五年前开始,已经进入到一个前人没走过的状态,「模仿复制」已经不再有效,而是必须要开拓新方法,建立高效验证体系,给系统自主迭代的空间,让它在虚拟环境里不断自我验证、优化。2021年,国内自动驾驶行业如日中天,融资达144起,总额932亿元;

2025-11-13 08:02:33 103

转载 谁在带队小鹏机器人:IRON背后的关键人物

刘先明指出,传统VLA最大的问题在于它用离散的语言来连接图像,这一过程有大量的信息会丢失,最终使得训练数据获取成本升高,不能大规模训练。而他们所提出的第二代VLA,则旨在去除语言这一中间层,让视觉与语义的直接对齐,这让自监督训练成为可能,因此更容易Scaling。具体而言,团队这次依然是从人类的生物构造上获得的灵感,从脊柱、到肌肉群、再到腹腔、甚至最外层的皮肤,这一切都是仿人类设计的。事实上,就在八个月前,IRON还远远没有像发布会上一样的超拟态猫女步伐,这一能力,几乎是在3月份的某天,一夜涌现出来的。

2025-11-13 08:02:33 137

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除