自动驾驶感知&端到端大模型
文章平均质量分 95
介绍感知及端到端技术相关知识,主要包括各大头部车企端到端方案,感知模型方案,最新自动驾驶大模型技术文章剖析,紧跟时代步伐,做好自动驾驶产品!
余额抵扣
助学金抵扣
还需支付
¥89.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
智能汽车人
目前笔者在自动驾驶大厂工作,自动驾驶行业资深算法工程师,希望通过博客带给读者朋友们更多人工智能以及自动驾驶领域相关的知识和经验。如果有问题或者项目需要咨询、合作,欢迎私信或者添加本人微信。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
自动驾驶大模型---华为ADS4.0
华为智能驾驶系统ADS持续迭代升级,2025年4月发布ADS4.0,采用WEWA架构(World Engine Model + World Action Model)。硬件方面配置3颗192线激光雷达、11个800万像素摄像头及高算力MDC1000平台,感知精度达3cm。安全性能提升至CAS4.0,强化全场景防碰撞能力。功能上实现98%复杂路口通过率、4秒变道响应及跨楼层自动泊车,并支持L3级自动驾驶。问界M9将首批升级,ADS4.0在反应速度、通行效率等方面较前代显著优化。原创 2025-06-30 07:15:00 · 2837 阅读 · 0 评论
-
自动驾驶大模型---理想汽车下一代MindVLA大模型
总结下来,MindVLA 成功整合了空间智能、语言智能和行为智能,可以说是一个巨大突破。并且通过创新性的预训练和后训练方法,发现 MindVLA 实现卓越的泛化能力和涌现特性。它不仅在驾驶场景下表现良好,在室内环境中,也展示了一定的适应性和延展性。这是Physical AI能够大规模落地关键。一旦跑通这套范式,理想将有望为更多行业赋能。参考论文。原创 2025-06-03 07:30:00 · 1246 阅读 · 0 评论
-
自动驾驶大模型---聊一聊特斯拉的FSD端到端系统
特斯拉FSD系统从V12版本开始全面转向纯视觉端到端神经网络架构,彻底颠覆了传统模块化自动驾驶框架。该系统通过单一神经网络直接处理摄像头输入到车辆控制输出的完整流程,核心采用Transformer模型进行时空信息融合,构建3D矢量空间并输出未来轨迹。最新V14版本将引入自回归Transformers技术,通过序列数据分析实现更智能的预判能力,同时扩大模型规模并首次整合音频输入。虽然该方案挑战了行业主流技术路线,但其数据驱动的迭代方式和实际表现已展现出颠覆性潜力。原创 2025-07-10 07:15:00 · 1729 阅读 · 0 评论
-
自动驾驶---Perception之Occupancy
自动驾驶感知的OCC技术,即Occupancy Network(占用网络)技术,是自动驾驶领域中的一项重要技术,尤其在“纯视觉”自动驾驶方案中占据核心地位。(1)定义与原理定义:OCC技术是一种基于深度学习的三维重建方法,它以多视角相机为核心,生成Bird's Eye View(BEV,鸟瞰图)特征,并通过级联结构和时间体素解码器重建,生成3D占用特征。原理:OCC技术通过产生3D体素,并与3D重建体素(通常由Nerf离线训练得到)进行比较,实现感知识别。原创 2024-07-08 08:42:59 · 5282 阅读 · 0 评论
-
自动驾驶---Perception之IPM图和BEV图
在自动驾驶感知中,IPM和BEV是两个重要的概念,它们各自在自动驾驶的感知和理解环境中起着关键作用,通过这两种技术,自动驾驶系统可以更准确地识别和理解周围环境中的物体和场景,从而实现更安全、更可靠的自动驾驶。IPM是早期的方案,随着自动驾驶感知技术的发展,目前逐步被BEV方案取代。原创 2024-05-27 08:58:08 · 4761 阅读 · 0 评论
-
自动驾驶大模型---香港科技大学之DSDrive
本篇博客主要介绍了香港科技大学提出的DSDrive自动驾驶方案,主要还是依赖QWen多模态模型的能力,属于VLA那一派,但DSDrive是基于闭环测试做的实验,目前基于闭环实验的自动驾驶大模型很少,这一点还是值得肯定的。至于模型的输入,输出以及结构,差别不是特别大,DSDrive还用了一个蒸馏,和理想小鹏的有些相似,确保模型部署能够提升推理的实时性。原创 2025-12-17 07:30:00 · 1542 阅读 · 0 评论 -
自动驾驶大模型---大疆车载(卓驭科技)之GenDrive
大疆旗下卓驭科技即将推出自动驾驶大模型GenDrive,采用感知-理解-生成闭环系统。该模型通过多模态数据融合和生成式推理能力,可生成多种未来驾驶场景并选择最优轨迹,支持自然语言交互和个性化驾驶风格学习。GenDrive具备硬件无关性,适配32-1000TOPS算力平台,采用双阶段训练模式,实现通用性与个性化兼备。功能包括自定义驾驶风格、在线学习用户偏好、语音控制驾驶行为等。该技术有望推动高阶智驾在不同价位车型上的普及。原创 2025-11-11 07:30:00 · 754 阅读 · 0 评论 -
自动驾驶大模型---特斯拉FSD模型架构终浮出水面
特斯拉在ICCV 2025会议上展示了FSD V14的重大突破:采用单一端到端神经网络处理多传感器输入,直接输出控制指令。该系统通过海量车队数据训练,能处理极端场景(如预判失控车辆),并开发了神经模拟器用于评估和生成合成数据。技术还扩展至Optimus人形机器人,展现了强大的跨平台泛化能力。特斯拉强调该方法具有高度可扩展性,能实现安全舒适的自动驾驶体验,并计划推出专为Robotaxi设计的CyberCab。原创 2025-11-04 18:30:00 · 1250 阅读 · 0 评论 -
自动驾驶大模型---BEVDriver
本文介绍了一种新型自动驾驶模型BEVDriver,该模型结合大型语言模型(LLM)的推理能力和鸟瞰图(BEV)特征的空间表示,实现端到端闭环驾驶。BEVDriver通过BEV编码器融合多视角图像和激光雷达点云,并利用LLM生成未来轨迹点。实验结果表明,BEVDriver在LangAuto基准测试中表现优异,驾驶分数比现有最优方法高出35.1%。该模型在开环评估和泛化能力方面也优于其他方法,但在处理距离指令时存在不足。未来将重点提升模型的鲁棒性、时间感知能力和可解释性。原创 2025-09-28 07:30:00 · 899 阅读 · 0 评论 -
自动驾驶大模型--- LightEMMA
密西根大学开源了LightEMMA自动驾驶大模型,这是一种基于视觉语言模型(VLMs)的轻量级端到端多模态方案。该模型整合前视摄像头、历史驾驶数据和语言输入,采用思维链提示策略输出推理信息和轨迹。研究评估了12个开源/商业VLMs在nuScenes数据集上的表现,发现虽然VLMs具备场景理解能力,但在实际驾驶任务中仍存在局限性。文章指出当前模型存在导航信息缺失、摄像头输入单一、轨迹不平滑及推理延迟等问题,需进一步优化才能满足量产需求。项目代码已在GitHub开源。原创 2025-09-18 07:30:00 · 966 阅读 · 0 评论 -
自动驾驶---感知模型之BEVFormer
BEVFormer是一种基于鸟瞰图(BEV)视角的Transformer架构,用于解决自动驾驶感知任务的挑战。它通过多传感器编码器处理摄像头和激光雷达数据,利用BEV查询向量作为桥梁,结合时空交叉注意力机制实现多视角特征融合。该模型包含ResNet骨干网络、核心的时空注意力模块以及多种任务头(如目标检测、占用网格预测等),能够有效处理遮挡问题并提供全局场景理解。尽管效果显著,BEVFormer仍面临计算复杂度高、数据依赖性强等挑战。该模型为自动驾驶的感知、预测和规划任务提供了创新的解决方案框架。原创 2025-06-17 07:15:00 · 1553 阅读 · 0 评论 -
大模型---Deepseek LLM大语言模型原理
随着文字大语言模型LLM的不断发展,图像、视频等大语言模型也逐渐出现(笔者在这篇博客《自动驾驶---End-to-end用于Planning行为规划》中提到过),并开始应用到各种场景当中,而图像和视频的token规模会更大,但底层原理还是相通的。原创 2025-02-25 08:00:00 · 1455 阅读 · 0 评论 -
大模型实战---人人都可以部署LLM大语言模型
之前的博客文章中,笔者分别介绍了大语言模型LLM和视觉语言模型VLM的基本原理,两者在结构上还是有相似的部分的,有兴趣的读者朋友可以查看。接下来,笔者更多的是讲应用,比如LLM大语言模型的部署,VLM视觉语言模型在自动驾驶上的部署应用。本篇博客主要阐述的内容是如何部署LLM。原创 2025-04-04 11:34:27 · 1231 阅读 · 0 评论 -
自动驾驶大模型---小鹏汽车VLA大模型
随着自动驾驶技术的进步,小鹏汽车正通过云端大模型蒸馏技术,将72B参数的VLA大模型轻量化后部署到车端,以提升自动驾驶系统的智能和安全性。这种技术路线不仅解决了“模态不统一”的问题,还通过强化学习增强了模型的表现。原创 2025-06-23 07:15:00 · 1727 阅读 · 0 评论 -
自动驾驶大模型---理想汽车智驾端到端方案
端到端模型直接处理传感器输入,输出驾驶决策,而VLM则处理复杂规则推理,辅助系统1决策。文章详细介绍了这两种模型的架构、训练方法、推理及建模过程,以及在实际应用中面临的挑战和优化策略。此外,还探讨了数据筛选、系统配合以及EID显示等关键方面,展示了理想汽车在自动驾驶技术上的创新和进步。整体而言,理想汽车通过双系统设计,有效提升了自动驾驶的决策效率和安全性。原创 2025-05-14 07:30:00 · 2634 阅读 · 0 评论 -
自动驾驶大模型---小米&华科的ORION端到端方案
本文介绍了小米汽车与华中科技大学联合开发的ORION自动驾驶端到端方案。该框架创新性地将视觉语言模型(VLM)与自动驾驶系统结合,包含QT-Former特征提取模块、大语言模型(LLM)推理模块和生成式规划器三大核心组件。通过视觉感知与语言理解的深度融合,ORION能更准确地理解人类指令并生成合理轨迹,同时提升系统的可解释性。实验证明,该方案在准确性、泛化能力和决策透明度方面均有显著优势。ORION框架为自动驾驶技术提供了新思路,有望推动行业向更安全、智能的方向发展。原创 2025-05-26 07:15:00 · 1786 阅读 · 1 评论 -
自动驾驶大模型---蔚来汽车之NWM
蔚来汽车2025年5月推送了全球首个智能驾驶世界模型NWM的首个版本,首批覆盖"Banyan榕"车型,6月底扩展至"雪松"系统车型。该模型具备100毫秒推演216种场景的能力,采用生成式无监督学习,显著提升了自动驾驶性能。功能升级包括:主动安全方面新增追尾预防和行业首个量产"紧急自主靠边停车";智能泊车实现全模型化支持,可360度识别车位并支持长距离漫游泊车;高速场景推出"智能驾享"模式,允许观看视频并自动处理紧急情况。实测显示在ETC识别、停车场导航等场景表现优异,但在闸机状态检测等细节仍需优化。原创 2025-06-13 07:15:00 · 1368 阅读 · 0 评论 -
自动驾驶大模型---商汤之开悟大模型
商汤科技在2025GDC大会上发布了行业首个“与世界模型协同交互的端到端自动驾驶方案R-UniAD”。该方案采用VLAR(视觉-语言-行动-强化学习)技术架构,通过世界模型2.0生成高保真仿真场景,结合多阶段强化学习训练,突破传统模仿学习的局限。方案包含三个阶段:模仿学习冷启动、云端强化学习训练、车端模型部署,可将碰撞率降低至人类驾驶的1/10。世界模型单GPU可生成相当于500辆量产车的传感器数据,大幅降低数据采集需求。原创 2025-08-20 07:30:00 · 1696 阅读 · 0 评论 -
自动驾驶大模型---轻舟智行的端到端方案
2024年,轻舟智航的研发重点逐渐转向城市NOA的量产,也开始涉及端到端的研发工作。近日,轻舟智航CTO李栋对其端到端方案进行了详细解读,指出该公司采用的是One Model的端到端模型,同时在线模型训练上引入了安全对齐机制,并在离线训练中,采用了基于运动模拟的世界模型。原创 2025-05-19 07:15:00 · 1524 阅读 · 0 评论 -
自动驾驶大模型---旷视科技之PADriver
本文介绍了车企大模型在自动驾驶领域的个性化应用。通过分析理想、小鹏、蔚来等车企的大模型方案,指出传统自动驾驶系统缺乏个性化适配的不足。重点阐述了PADriver框架,该框架通过驾驶风格编码器和条件策略网络实现个性化表征学习和策略生成,采用混合目标函数和迁移学习进行训练。实验表明,个性化模型在风格相似度、安全性等方面优于基线模型。文章还探讨了个性化自动驾驶的应用价值、当前局限及未来方向,如开发语言模型接口、联邦学习等,推动自动驾驶从标准化向个性化服务迈进。原创 2025-08-06 08:00:00 · 1232 阅读 · 0 评论 -
自动驾驶大模型---Waymo的EMMA大模型
自动驾驶大模型EMMA:基于Gemini的端到端多模态创新 Waymo研发的EMMA是基于谷歌Gemini多模态大语言模型(MLLM)开发的自动驾驶创新模型。该模型通过端到端训练处理传感器数据,生成未来轨迹并做出避障决策,将MLLM的应用拓展到自动驾驶领域。EMMA的创新性体现在:1)利用Gemini的"世界知识"增强复杂环境应对能力;2)采用链式思维推理提升决策可解释性;3)通过视觉问答方法统一处理多种驾驶任务。实验显示EMMA在多个基准测试中表现优异,但仍面临3D传感器整合不足、计算原创 2025-07-17 07:15:00 · 1369 阅读 · 0 评论 -
自动驾驶大模型---聊聊地平线的HSD
本文介绍了地平线在自动驾驶领域的技术进展,重点分析了其HSD(Horizon SuperDrive)系统。HSD基于2023年CVPR最佳论文UniAD的端到端架构,通过BEV特征提取、智能体跟踪、轨迹预测等模块实现从图像输入到轨迹输出的全流程处理。系统采用强化学习训练,具备低延时响应、防御性驾驶和拟人化操控等特点,能智能应对施工区绕行、复杂路口等场景。相比传统模块化方案,HSD的一段式端到端设计显著提升了自动驾驶的安全性和舒适性,展现了接近DeepSeek R1的"智能涌现"能力。原创 2025-10-02 07:30:00 · 1410 阅读 · 0 评论 -
自动驾驶大模型---元戎启行的VLA大模型
本文聚焦元戎启行最新研发的视觉-语言-动作(VLA)大模型,该模型通过融合多模态输入和思维链技术,显著提升了智能驾驶系统在复杂场景下的决策能力。文章详细解析了VLA架构(包含视觉/文本编码器、LLM核心及轨迹/文本解码器)及其训练方法(监督+强化学习),并对比了小鹏、理想等车企的类似方案。测试案例显示,该模型能有效处理特殊车道规则识别、货车盲区等挑战场景。作者指出,VLA模型是通向完全自动驾驶的关键技术,但目前尚未公开采用世界模型训练方式。原创 2025-10-13 07:30:00 · 863 阅读 · 0 评论 -
大模型---谈谈LLM(大语言模型)和WM(世界模型)
LLM(大型语言模型)和世界模型(World Models)在AI领域存在本质差异。LLM基于文本数据,擅长语言任务(如文本生成),但缺乏物理推理能力;世界模型则通过多模态输入模拟环境动态,支持因果推理和状态预测。MIT研究显示LLM隐含部分世界知识,但实验表明其在物理效应预测上存在缺陷。学界认为LLM是文本世界的浅层模拟器,而物理建模需架构革新。未来方向可能结合LLM的规划能力与世界模型的执行能力,推动具身智能发展。原创 2025-09-05 07:15:00 · 1407 阅读 · 0 评论 -
自动驾驶---端到端的下一站:世界模型
本文探讨了世界模型在自动驾驶、机器人及虚拟现实等领域的应用与发展。世界模型作为理解世界机制和预测未来状态的工具,主要分为基于内部表示的模型和预测未来状态的模型两类。当前研究面临数据质量、模型复杂度、泛化能力和不确定性处理等挑战。未来方向包括多模态融合、模型结构创新、强化学习结合及可解释性提升。技术流派上,Transformer、JEPA和扩散模型(如Sora)成为主流方案。世界模型研究对推动跨学科发展和通用人工智能具有重要意义,但仍需解决数据、计算和泛化等关键问题。原创 2025-09-04 07:15:00 · 1749 阅读 · 0 评论 -
自动驾驶大模型---HE-Drive类人端到端驾驶
针对现有自动驾驶规划器存在的时间不一致性和舒适性不足问题,本研究提出HE-Drive创新系统。该系统采用三层架构:1)稀疏感知模块提取关键3D场景表示;2)基于条件DDPM的扩散规划器生成多模态轨迹,通过FiLM层注入条件信息保障时间一致性;3)VLM引导的双阶段评分器(Llama3.2-Vision分析+规则调整)优选舒适轨迹。实验表明,系统在NuScenes数据集上碰撞率降低71%,运行效率提升1.9倍,真实场景舒适度提高32%。原创 2025-07-30 07:15:00 · 893 阅读 · 0 评论 -
自动驾驶大模型---基于VLMs的WiseAD大模型
在之前的博客中笔者分别介绍了LLM大语言模型的基本原理,一个带推理能力的大模型包括训练,微调,强化学习等过程。《大模型---视觉语言模型VLM》在视觉语言模型中,笔者曾介绍过,大部分VLM由是视觉编码器和大语言模型构成。自动驾驶技术近年来取得显著进展,但要实现可靠、安全且智能的完全自动驾驶,仍面临诸多挑战。传统自动驾驶系统依赖复杂的模块化架构,将感知、决策和控制等任务拆分处理,各模块间的协同与交互增加了系统的复杂性与潜在故障点。原创 2025-05-12 07:15:00 · 1201 阅读 · 0 评论 -
自动驾驶---基于视觉语言模型的自动驾驶
VLM-AD是一种通过利用视觉语言模型(VLM)作为辅助 “教师” 来增强端到端自动驾驶模型的新方法。通过包含非结构化推理文本和结构化动作标签的针对性问题来整合基于 VLM 的标注信息,在训练过程中加入了额外的推理和动作监督,丰富了训练内容。在 nuScenes 数据集上显著提高了规划的准确性,并降低了碰撞率,同时通过动作预测使其输出轨迹具有可解释性。重要的是,VLM-AD 在推理过程中不需要视觉语言模型(VLM),这使得它能够即插即用地应用于现实场景的部署中,而无需额外的推理成本。原创 2025-04-27 07:30:00 · 1148 阅读 · 0 评论 -
自动驾驶大模型---视觉语言模型(VLM)与双系统融合
DriveVLM是理想汽车联合清华赵行团队研发的自动驾驶系统方案,它通过结合视觉语言模型(VLMs)来提升对复杂交通场景的理解和规划能力,是理想汽车最新一代端到端+VLM智驾方案的核心构成。DriveVLM 的设计理念是模仿人类驾驶员在复杂环境中的决策过程,通过模拟“思维链”(Chain-of-Thought)机制,实现对场景的深入理解和策略规划。该系统由三个关键的推理模块组成:场景描述、场景分析和分层规划。场景描述模块能够用语言描述驾驶环境并识别场景中的关键对象。原创 2025-05-09 07:30:00 · 1247 阅读 · 0 评论 -
自动驾驶---决策规划之导航增强端到端
NTT方法的核心思想是基于导航路径生成自动驾驶车辆的未来目标点。具体来说,该方法首先根据导航路径的信息,预测出自动驾驶车辆在未来某一时刻应该到达的位置,即目标点。通过生成目标点,自动驾驶车辆能够学习到明确的规划意图,从而提高了规划的实用性。同时,基于目标点生成的规划轨迹可以更加灵活地适应环境变化,有效提高了规划的安全性。在实现过程中,NTT方法采用了多种技术手段。首先,通过对导航路径进行解析和处理,提取出关键的路段信息和转向点。原创 2025-04-19 11:11:49 · 1595 阅读 · 1 评论 -
自动驾驶---自动驾驶端到端的一般形态
自动驾驶大模型的出现就是为了解决传统算法难以解决的问题,下面笔者从自动驾驶大模型的架构阐述其基本框架。本篇博客先介绍传统的端到端思路,在框架上其实和原有感知框架差不太多,多的是最后一层,在原有BEV特征或者OCC特征的基础上,增加一个单独的任务Head用于轨迹解码。原创 2025-04-10 07:30:00 · 1535 阅读 · 1 评论 -
自动驾驶---苹果又要造车了吗?
在论文中,作者的目标是将这一方法应用于自动驾驶系统的训练,旨在通过模拟环境中的自我对弈,训练一个无需人工数据的自动驾驶策略。该方法的核心假设是,通过模拟环境进行大规模的自我对弈,智能体能够学会如何应对复杂的现实环境中的多种驾驶场景。:在多种不同的驾驶环境中,训练后的自动驾驶系统表现出极高的鲁棒性,能够有效应对突发的交通状况和复杂的驾驶场景。:一个显著的结果是,训练的模型完全没有依赖任何人工驾驶数据,所有训练数据都是通过自我对弈生成的,这展示了自我对弈策略的强大能力,能够在不同的驾驶场景中无缝适应。原创 2025-04-08 17:45:00 · 1334 阅读 · 0 评论 -
大模型---一文看懂视觉语言大模型VLM
在之前的博客中,为读者朋友们详细介绍了LLM大语言模型的预训练,微调以及强化学习的详细过程。在上篇博客最后一段,笔者放了一张截图,ChatGPT的创始人卡帕西也说,未来的大模型会朝着多模态,多任务等方向发展。在多模态中,就涉及到音频,图片以及视频等。音频通过识别也会转成语言,本质上和大语言模型原理相同,因此本篇博客自然过渡到视觉语言模型VLM。不管在工作项目还是生活当中,笔者也常常接触大模型。作为大模型的使用者,其确实给生活和工作带来了不少变革,这两年学习大模型也成为了生活中的一部分。原创 2025-03-19 07:30:00 · 1979 阅读 · 0 评论 -
自动驾驶---Perception之多模预测
多模预测和单模预测各有其优劣势和适用场景。在选择使用哪种预测方式时,需要根据具体问题的复杂程度、预测精度的要求以及计算资源的限制等因素进行综合考虑。对于自动驾驶等复杂系统而言,多模预测通常更为适用,因为它能够更全面地考虑交通环境中的不确定性和多样性,提高系统的安全性和可靠性。然而,在实际应用中还需要注意模型选择、数据质量以及计算效率等方面的问题,以确保预测结果的准确性和实时性。原创 2024-08-05 08:46:22 · 1705 阅读 · 0 评论 -
自动驾驶---Perception之视觉点云&雷达点云
视觉点云技术和LiDAR点云技术在许多行业都有应用,尤其是在机器人或者汽车自动驾驶领域都有着广泛的应用。视觉点云技术和LiDAR点云技术在自动驾驶领域的应用为车辆提供了强大的环境感知能力,有助于实现更安全、更可靠的自动驾驶。原创 2024-06-11 08:41:34 · 3129 阅读 · 0 评论 -
自动驾驶---Perception之Lidar点云3D检测
Lidar(Light Detection and Ranging,激光雷达)点云3D检测是一种利用激光雷达获取周围环境的三维数据,并对其进行处理和分析,以识别和定位物体的技术。Lidar点云3D检测是一种复杂而强大的技术,可以广泛应用于自动驾驶、机器人导航、地形测绘等领域。通过不断优化算法和提高数据处理能力,可以实现更高精度和更高效的3D检测。原创 2024-06-24 08:09:04 · 1805 阅读 · 0 评论 -
自动驾驶---E2E架构演进
模型最早应用的自动驾驶模块就是感知层面,随着技术的发展,逐渐开始应用到决策规划等其它模块。端到端自动驾驶架构是一种基于深层神经网络模型和方法的自动驾驶技术模式。目前一段式端到端系统只有在英伟达早期所做的demo中实现,再者就是特斯拉(但特斯拉并没有官方说明是一段式端到端,只是网络上搜集到的信息,不一定准确)。原创 2025-01-08 08:15:00 · 2296 阅读 · 0 评论 -
自动驾驶---不依赖地图的大模型轨迹预测
本篇博客通过一篇论文的介绍和笔者自身的理解来看,MFTP为自动驾驶轨迹预测领域提供了一种新的视角,即在不依赖高清地图的情况下,通过知识蒸馏和层次编码来实现有效的轨迹预测。在模型压缩和轻量化中,这种方法有望在自动驾驶技术的发展中发挥重要作用,并为未来相关研究提供了新的方向。原创 2025-03-05 06:30:00 · 1666 阅读 · 0 评论 -
自动驾驶---各大车企的端到端之旅
随着AI的进一步发展以及自动驾驶技术的进化,大模型会逐渐替代掉现有自动驾驶的传统方案:感知---预测---规划---控制的范式。目前落地的端到端大模型只有特斯拉,小鹏,理想三家,后面将会有更多的企业落地端到端的方案,这也是未来一段时间自动驾驶技术的主流方案。另一个值得思考的是,既然自动驾驶系统中可以应用端到端技术,那么其它机器人领域是不是同样可以使用呢?它的应用可以是多方面的,比如,月球车,人形机器人等等。原创 2024-08-24 10:09:15 · 1721 阅读 · 0 评论 -
人工智能---什么是Transformer?
Transformer是一种强大的神经网络架构,最初由Google的研究人员在论文《Attention is All You Need》中提出,用于自然语言处理任务,特别是在机器翻译方面取得了巨大成功。Transformer的核心思想是完全基于自注意力机制(self-attention mechanism)来实现序列到序列(sequence-to-sequence)的学习。它在自然语言处理(NLP)和其他序列到序列任务中表现出色,逐渐成为该领域的主流模型。近些年也逐渐在自动驾驶领域有所应用。原创 2024-04-27 10:12:31 · 3690 阅读 · 0 评论
分享