智能汽车人
目前笔者在自动驾驶大厂工作,自动驾驶行业资深算法工程师,希望通过博客带给读者朋友们更多人工智能以及自动驾驶领域相关的知识和经验。如果有问题或者项目需要咨询、合作,欢迎私信。
展开
-
自动驾驶---Perception之Occupancy
自动驾驶感知的OCC技术,即Occupancy Network(占用网络)技术,是自动驾驶领域中的一项重要技术,尤其在“纯视觉”自动驾驶方案中占据核心地位。(1)定义与原理定义:OCC技术是一种基于深度学习的三维重建方法,它以多视角相机为核心,生成Bird's Eye View(BEV,鸟瞰图)特征,并通过级联结构和时间体素解码器重建,生成3D占用特征。原理:OCC技术通过产生3D体素,并与3D重建体素(通常由Nerf离线训练得到)进行比较,实现感知识别。原创 2024-07-08 08:42:59 · 4184 阅读 · 0 评论 -
自动驾驶---Perception之IPM图和BEV图
在自动驾驶感知中,IPM和BEV是两个重要的概念,它们各自在自动驾驶的感知和理解环境中起着关键作用,通过这两种技术,自动驾驶系统可以更准确地识别和理解周围环境中的物体和场景,从而实现更安全、更可靠的自动驾驶。IPM是早期的方案,随着自动驾驶感知技术的发展,目前逐步被BEV方案取代。原创 2024-05-27 08:58:08 · 3576 阅读 · 0 评论 -
大模型---Deepseek LLM大语言模型原理
随着文字大语言模型LLM的不断发展,图像、视频等大语言模型也逐渐出现(笔者在这篇博客《自动驾驶---End-to-end用于Planning行为规划》中提到过),并开始应用到各种场景当中,而图像和视频的token规模会更大,但底层原理还是相通的。原创 2025-02-25 08:00:00 · 990 阅读 · 0 评论 -
自动驾驶---E2E架构演进
模型最早应用的自动驾驶模块就是感知层面,随着技术的发展,逐渐开始应用到决策规划等其它模块。端到端自动驾驶架构是一种基于深层神经网络模型和方法的自动驾驶技术模式。目前一段式端到端系统只有在英伟达早期所做的demo中实现,再者就是特斯拉(但特斯拉并没有官方说明是一段式端到端,只是网络上搜集到的信息,不一定准确)。原创 2025-01-08 08:15:00 · 1748 阅读 · 0 评论 -
大模型---一文看懂视觉语言大模型VLM
在之前的博客中,为读者朋友们详细介绍了LLM大语言模型的预训练,微调以及强化学习的详细过程。在上篇博客最后一段,笔者放了一张截图,ChatGPT的创始人卡帕西也说,未来的大模型会朝着多模态,多任务等方向发展。在多模态中,就涉及到音频,图片以及视频等。音频通过识别也会转成语言,本质上和大语言模型原理相同,因此本篇博客自然过渡到视觉语言模型VLM。不管在工作项目还是生活当中,笔者也常常接触大模型。作为大模型的使用者,其确实给生活和工作带来了不少变革,这两年学习大模型也成为了生活中的一部分。原创 2025-03-19 07:30:00 · 836 阅读 · 0 评论 -
自动驾驶---Perception之多模预测
多模预测和单模预测各有其优劣势和适用场景。在选择使用哪种预测方式时,需要根据具体问题的复杂程度、预测精度的要求以及计算资源的限制等因素进行综合考虑。对于自动驾驶等复杂系统而言,多模预测通常更为适用,因为它能够更全面地考虑交通环境中的不确定性和多样性,提高系统的安全性和可靠性。然而,在实际应用中还需要注意模型选择、数据质量以及计算效率等方面的问题,以确保预测结果的准确性和实时性。原创 2024-08-05 08:46:22 · 1302 阅读 · 0 评论 -
自动驾驶---Perception之视觉点云&雷达点云
视觉点云技术和LiDAR点云技术在许多行业都有应用,尤其是在机器人或者汽车自动驾驶领域都有着广泛的应用。视觉点云技术和LiDAR点云技术在自动驾驶领域的应用为车辆提供了强大的环境感知能力,有助于实现更安全、更可靠的自动驾驶。原创 2024-06-11 08:41:34 · 2625 阅读 · 0 评论 -
自动驾驶---Perception之Lidar点云3D检测
Lidar(Light Detection and Ranging,激光雷达)点云3D检测是一种利用激光雷达获取周围环境的三维数据,并对其进行处理和分析,以识别和定位物体的技术。Lidar点云3D检测是一种复杂而强大的技术,可以广泛应用于自动驾驶、机器人导航、地形测绘等领域。通过不断优化算法和提高数据处理能力,可以实现更高精度和更高效的3D检测。原创 2024-06-24 08:09:04 · 1573 阅读 · 0 评论 -
自动驾驶---不依赖地图的大模型轨迹预测
本篇博客通过一篇论文的介绍和笔者自身的理解来看,MFTP为自动驾驶轨迹预测领域提供了一种新的视角,即在不依赖高清地图的情况下,通过知识蒸馏和层次编码来实现有效的轨迹预测。在模型压缩和轻量化中,这种方法有望在自动驾驶技术的发展中发挥重要作用,并为未来相关研究提供了新的方向。原创 2025-03-05 06:30:00 · 1301 阅读 · 0 评论 -
自动驾驶---各大车企的端到端之旅
随着AI的进一步发展以及自动驾驶技术的进化,大模型会逐渐替代掉现有自动驾驶的传统方案:感知---预测---规划---控制的范式。目前落地的端到端大模型只有特斯拉,小鹏,理想三家,后面将会有更多的企业落地端到端的方案,这也是未来一段时间自动驾驶技术的主流方案。另一个值得思考的是,既然自动驾驶系统中可以应用端到端技术,那么其它机器人领域是不是同样可以使用呢?它的应用可以是多方面的,比如,月球车,人形机器人等等。原创 2024-08-24 10:09:15 · 1353 阅读 · 0 评论 -
人工智能---什么是Transformer?
Transformer是一种强大的神经网络架构,最初由Google的研究人员在论文《Attention is All You Need》中提出,用于自然语言处理任务,特别是在机器翻译方面取得了巨大成功。Transformer的核心思想是完全基于自注意力机制(self-attention mechanism)来实现序列到序列(sequence-to-sequence)的学习。它在自然语言处理(NLP)和其他序列到序列任务中表现出色,逐渐成为该领域的主流模型。近些年也逐渐在自动驾驶领域有所应用。原创 2024-04-27 10:12:31 · 3051 阅读 · 0 评论 -
自动驾驶---视觉Transformer的应用
本文对自动驾驶中的Transformer模型,特别是视觉Transformer进行了全面的调查,展示了它们的意义超越了传统的卷积神经网络(CNNs)和递归神经网络(RNNs)。我们探索了它们在自然语言处理和计算机视觉方面的基础架构、基于注意力的处理优势,以及它们在各种AD任务中的卓越性能,包括3D对象检测、2D车道检测和高级场景分析。此外,我们强调了挑战,以激发人们对这一动态领域的进一步兴趣和研究。视觉Transformer凭借其细致入微的数据处理能力,有望在车载技术方面取得令人兴奋的进步。原创 2024-07-22 08:42:35 · 1919 阅读 · 0 评论 -
自动驾驶---LSTM模型用于轨迹预测
LSTM主要用于处理和预测时间序列数据中的长期依赖关系。在传统的 RNN 中,随着序列长度的增加,会出现梯度消失或梯度爆炸的问题,导致网络难以学习到远距离的信息关联。而 LSTM 通过精心设计的细胞结构有效地解决了这个问题。(1)网络结构记忆单元(Memory Cell):这是 LSTM 的核心部分,信息沿着细胞状态在序列的各个时间步长中传递。细胞状态有点像一个传送带,它能够选择性地让信息通过,并且能够在长序列中保持信息不变,或者根据需要更新信息。原创 2025-01-14 08:15:00 · 1497 阅读 · 0 评论 -
自动驾驶---基于深度学习模型的轨迹预测
本文只是简单阐述了大模型在轨迹预测方向的应用,但是随着技术的发展,目前预测-决策-规划模型一体化的趋势愈加明显,甚至已经量产,这也是自动驾驶技术进化的魅力。了解大模型也是未来自动驾驶工程师的必修课之一。原创 2025-02-17 08:08:12 · 1325 阅读 · 0 评论 -
自动驾驶---Parking端到端架构
论文提出了一种基于相机的端到端泊车模型,该模型输入目标车位和环视RGB图像,通过目标查询获得BEV视图中的融合特征,并且使用transformer解码器以自回归的方式预测轨迹点,轨迹规划的结果随后用于控制,结果证明了其可靠性和泛化能力。然而,论文中的端到端方法和高度优化的基于规则的泊车方法之间仍然存在性能差距,在复杂场景的泊车效率以及成功率可能不如基于规则的泊车成功率。随着技术的发展,端到端肯定是未来自动驾驶或者具身智能的一个大方向。原创 2024-12-21 08:17:43 · 1260 阅读 · 0 评论 -
自动驾驶---Tesla FSD Version 13
自从2022年之后,特斯拉并没有再进行过AI Day的活动,其自动驾驶路线也只有内部工程师,或者和特斯拉工程师有接触的同行才略知一二,截止到目前位置特斯拉是否真的已经实现一段式端到端仍然无法确定。但FSD在13的版本中,通过引入新的视频处理能力、提升数据处理和训练能力、降低系统延迟、改进用户界面和泊车能力,以及增加音频输入,显著提高了自动驾驶系统的性能和用户体验。原创 2024-12-31 18:16:19 · 1793 阅读 · 0 评论 -
自动驾驶---End-to-end用于Planning行为规划
从GPT4-V的表现总体来说,类似GPT4-V这种大模型用于自动驾驶决策还是很有前景的,当喂入海量的人类驾驶数据及场景图片,它的驾驶行为也会越来越智能,至于直接端到端到控制目前来看可能比较激进,以量产的角度来看,笔者认为用于自动驾驶行为规划是非常合适的。原创 2024-01-06 09:28:09 · 1562 阅读 · 1 评论 -
自动驾驶---小米汽车智驾进展
小米汽车的成功,可能出乎很多人的意料,其它新势力车企花了5---10年的时间,小米汽车三年就成功造出了第一辆车,在小米su7月销2万+的同时,获得了非常不错的口碑。笔者在之前的博客《》中已经阐述过,雷军是一位具有远见卓识和领导力的企业家。在小米手机成功的经验下,带领小米汽车也逐渐走向正轨,笔者可能相信,新能源汽车会向当时智能手机时代一样,从百家争鸣到驱逐良币,最终只剩那么几家,大部分新能源汽车会被淘汰出局。原创 2024-12-12 08:30:00 · 3394 阅读 · 0 评论 -
自动驾驶---行泊一体(车位到车位功能)量产
行泊一体是指将智能驾驶的行车功能和自动泊车功能集成在一个域控制器上,通过共享传感器和计算资源,甚至在同一个进程中,实现两个功能(高速NOA+低速AVP)的协同工作。国内华为算是智驾技术第一梯队,首先发布了车位到车位的产品。车位到车位的智能驾驶,覆盖了从停车场到公开道路,再到园区、地下停车场等各种复杂场景。无论是在狭窄的停车场通道、繁忙的城市道路,还是在复杂的园区环境中,车辆都能够自主行驶,完成整个行程。这样一个车位到车位产品形态也是自动驾驶的终极形态,体验在笔者看来分为三个方面:(1)安全性;原创 2024-11-16 09:36:51 · 1887 阅读 · 0 评论