- 博客(1220)
- 收藏
- 关注

原创 训练赛合集
比赛合集牛客2021年度训练联盟热身训练赛第一场cfCodeforces Round #694 Div. 2Codeforces Round #696 (Div. 2)Codeforces Round #695 (Div. 2)XCPC区域赛省赛多校
2021-04-04 11:18:55
398

原创 Jozky 刷题目录
文章目录第一章 字符串问题第二章 博弈论第三章 计算几何第四章 网络流第五章 动态规划第六章 数论第七章 图论第八章 数据结构第九章 其他算法第十章 贪心(思维题/构造题)
2021-03-23 11:35:45
821
原创 大语言模型在端到端智驾中的应用
小鹏:AI天玑系统—神经网络XNet+规控大模型XPlanner+大语言模型XBrain。商汤绝影:DriveAGI。理想:端到端+VLM。
2025-04-02 23:22:56
121
原创 大语言模型在端到端智驾中的应用
小鹏:AI天玑系统—神经网络XNet+规控大模型XPlanner+大语言模型XBrain。商汤绝影:DriveAGI。理想:端到端+VLM。
2025-04-02 18:42:07
213
原创 DRIVEVLM(快慢系统)
为了全面评估模型的性能,我们关注其对驾驶场景的理解和做出的决策。因此,我们的评估包括两个方面:场景描述 / 分析评估和元动作评估。
2025-04-02 17:12:31
743
原创 Video-LLaVA
随后,统一的视觉表示由共享投影层进行编码,然后与分词后的文本查询相结合,并输入到大型语言模型中以生成相应的响应。这种训练方式充分利用了图像和视频数据之间的互补性,促进了 LLM 对统一视觉表征的学习,进一步提升了模型在视觉语言理解任务中的性能,在多个图像和视频基准测试中取得优异成绩。因此,我们可以将来自不同模态的信息压缩到一个公共特征空间中,使模型能够从密集的特征空间中提取信息,促进模态间的交互和互补。LLaVA 将视觉信号绑定到语言特征空间,统一了视觉表征,并提出了投影前对齐的解决方案。
2025-03-30 00:39:09
285
原创 HybridVLA(未完成)
而基于自回归的动作生成则模仿文本生成过程,根据之前的信息预测离散动作,并计算动作令牌的平均置信度,为协同动作集成提供指导。对于 “给植物浇水” 这种需要场景语义推理的任务,自回归生成的动作能更好地利用大模型的推理能力规划动作流程。当遇到新的物体需要操作时,大模型可以根据其在预训练中学习到的物体语义和操作知识,结合当前场景信息,生成合理的动作,完成操作任务。在面对 “打开抽屉并将物品放入” 的指令时,大模型可以结合视觉信息中抽屉的位置、物品的形状和位置,以及机器人当前的手臂姿态等信息,推理出合理的动作步骤。
2025-03-29 13:32:28
160
原创 GenAD: Generative End-to-End Autonomous Driving
关于传统E2E model的做法存在的问题:比如ego在同一个位置上时,ego选择直行或者变道,对于别的agent的行为是有不同的影响的。现有的model不管ego以后怎么开,给他车参考的feature是一样的,因此在交互上缺乏了针对性的能力。这样的交互应该是双向的。传统做法是多条轨迹的建模方式,而实际上在latent space进行交互处理会更合理。而agent的行为其实是有统一的更高级别的pattern的,可以先学到这种pattern,然后再进行预测和规划,这样的预测和规划就会更直接地考虑交互。
2025-03-24 17:11:40
279
原创 向量化地图重建
把障碍物轨迹预测建模为多智能体+多运动模式的组合,核心点在下面这个公式,可以按MapTRV2的思路去理解,即智能体和运动模式看做正交的2个变量,通过2者间的组合可以构建其智能体运动空间。
2025-03-24 15:51:55
140
原创 BridgeAD(还没看懂)
BridgeAD框架如图2所示,包含三个主要组件:图像编码器、历史增强感知模块和历史增强运动规划模块。随后,历史增强感知模块通过稀疏方法执行3D目标检测、跟踪和在线矢量化地图构建,并通过历史Mot2Det融合模块整合历史信息。最后,历史增强运动规划模块由历史增强运动预测模块、历史增强规划模块和步骤级Mot2Plan交互模块组成,利用历史数据生成运动预测和规划输出。当前的端到端方法大多源于检测方法 [28, 34, 51],采用类似的范式利用时间信息来提高性能。我们采用稀疏范式 [34, 47, 51]
2025-03-22 10:39:52
119
原创 OpenEMMA: 基于多模态大语言模型的端到端开源自动驾驶框架
为了减轻多模态大语言模型在目标检测任务中已知的局限性,OpenEMMA 集成了经过微调的 YOLO 版本,该版本针对自动驾驶场景中的 3D 边界框预测进行了专门优化,显著提高了检测精度。此外,通过利用多模态大语言模型预先存在的世界知识,OpenEMMA 可以为场景理解等感知任务生成可解释、人类可读的输出,从而提高了透明度和可用性。为了克服这一挑战,在不额外微调多模态大语言模型的情况下实现高检测精度,我们将一个外部的视觉专业模型集成到 OpenEMMA 中,有效地解决了检测任务。
2025-03-21 16:22:17
894
原创 【大模型微调】使用Llama Factory实现中文llama3微调
所以用的Llama3-99-Chinese-Chat(别人微调过的再微调)为什么不用基座模型:95%用的英文数据训练,训练效果不好。
2025-03-19 22:24:58
281
原创 law代码详细分析
这里涉及到了DETECTORS.build,DETECTORS 继承自 MODELS,是一个模型注册器,用于存储 所有注册的检测器模型,会根据cfg中的type类型(也就是LAW)来决定要实例化的吉安策器类型。从train.py的custom_train_model跳转到custom_train_model函数,再到custom_train_detector函数。上面已经写了cfg的类型是LAW,所以会跳转到LAW.py(project/mmdet3d_plugin/LAW/LAW.py)
2025-03-18 17:38:41
276
原创 CTT(看懂一点点)
CTT 首先从驾驶日志中识别出场景模式,即真实场景模式(GTSM)。编码器的目标是根据场景静态特征和智能体历史轨迹,准确预测真实场景模式。解码器的目标则是在任意给定的场景模式下,重构智能体的未来轨迹。场景模式属于分类模式,由两部分组成:智能体到车道(a2l)模式 L 和智能体到智能体(a2a)模式 H。GPT 的常识推理帮助排除了场景模式 (1),而 CTT 的 “专家级” 驾驶知识则帮助排除了场景模式 (2)。场景模式是场景未来演变的框架,可直接用于与大语言模型(LLM)进行交互。
2025-03-18 12:05:42
262
原创 自动驾驶中基于潜在世界模型学习多概率决策(LatentDriver)
为了缓解联合优化过程中的自欺问题,从 MPP 中间层采样得到的动作被用作真实动作的估计,减少了最终决策对历史动作的依赖。:过度依赖于基于历史动作的预测(例如:车辆前方突然出现障碍物,自回归世界模型依据之前的行驶动作预测车辆可以继续按原路线行驶,但规划器需要根据当前观测到的障碍物来决策,若规划器受到模型预测的干扰,忽视当前观测,就会导致危险,这就是自欺问题的体现)可能存在多种有效的选择,每个选择代表分布的不同模式。世界模型和规划器之间的交互是双向且完全随机的,最终动作是从它们的混合分布中推导出来的(图c)
2025-03-17 18:23:15
1392
原创 世界模型解决Covariate Shift(英伟达)
训练了一个潜在空间生成世界模型,该模型使我们能够从学习到的潜在空间中采样训练数据中不存在的新的自动驾驶汽车状态。然后,这些采样状态被用于训练驾驶策略以从错误中恢复,在这个过程中,策略学习选择能够使未来潜在状态更接近人类示范中观察到的状态的动作。State Estimator比World Model多输入一个当前帧的画面,相当于SE比WM多一些当前帧的信息,然后Wm是用前t-1来预测t时刻的行动,SE是用前t时间来决策t时刻的行动。协变量偏移是指规划器的策略在部署期间遇到的状态分布与训练期间的状态分布不同。
2025-03-17 14:36:52
1033
原创 Feedback-Guided Autonomous Driving
并通过特征蒸馏为训练感觉运动智能体提供丰富的监督(是指将Privileged Agent的绿色输出与Sensorimotor Agent的输出做对比,之后损失函数部分会讲)航点预测头:基于高效多层感知器(MLP)的航点预测头,将来自多模态大语言模型最后一个隐藏层的特征作为输入,并输出航点ys。根据周围物体的真实状态和原始的航点预测,我们对五种失败情况进行了详细分类,并为每种失败情况生成相应的反馈提示。五种情况分别是:车俩碰撞,行人碰撞,交通信号灯违规,与专家示范的偏差(对比路点),与规划路线的偏差。
2025-03-17 13:21:13
1056
原创 Navigation-Guided Sparse Scene Representation for End-to-End Autonomous Driving(SSR论文讲解)
在紫色部分中,密集的 BEV 特征首先由场景令牌学习器压缩为稀疏查询,然后通过交叉注意力机制用于规划。UAD(Guo 等人,2024)尝试将 BEV 特征按角度划分为不同扇区,但仍然依赖开放集检测器标签进行监督,维持了特定任务查询的复杂性。对于感知而言,端到端最大的意义在于"Planning-Oriented",也就是从全知全量的感知到可以学习的的按需感知。VAD(Jiang 等人,2023)试图通过矢量化来简化场景表示,减少了 UniAD 中的跟踪和占据预测任务。
2025-03-13 16:12:56
510
原创 World Models for Autonomous Driving: An Initial Survey(论文精读)
在 ADriver-I 中,世界模型与 MLLM 的结合显著提高了预测和决策的可解释性,也表明了将世界模型作为基础模型与其他模型相结合的可行性。该模型的输入包含更多元素,如高清地图和 3D 边界框,这使得它在驾驶场景生成方面能够实现更精确的控制和更深入的理解,进而提升视频生成质量。RSSM 的创新之处在于,如图 3c 所示,它将状态战略性地分解为随机和确定性组件,有效地利用了确定性元素的预测稳定性和随机元素的适应潜力。相反,图 3b 中完全随机的方法由于其固有的不可预测性,在跨时间步保留信息方面存在挑战。
2025-03-12 13:51:40
980
原创 VAD(VAD: Vectorized Scene Representation for Efficient Autonomous Driving)
注意点:这里输入的action,既可以使用导航地图提供的action指令,也可以使用VLM大模型给出更结合场景且更定制化的action,后者即双系统端到端方案的基本思路。VLM是根据VAD进行修改的,要读懂VAD就必须读懂VLM。
2025-03-07 16:52:04
201
原创 CoDrivingLLM
冲突协调器会分析场景中车辆之间可能存在的冲突情况,例如车辆行驶路径的交叉、速度差异可能导致的碰撞风险等,并生成相应的冲突描述。这两个公式可能涉及车辆运动学和动力学的计算,将语义决策转化为车辆的实际控制量,如加速度、转向角度等,从而确定车辆的新位置、速度等状态信息。再次遍历车辆列表C,对于每辆车i,从冲突描述con中筛选出与本车相关的冲突描述coni,并进行排序,以便后续针对性地处理冲突。,这个描述包含了车辆自身的状态以及周围环境的信息,如其他车辆的位置、速度等。算法的输入包括车辆当前时刻的状态。
2025-03-05 23:11:29
743
原创 Enhancing End-to-End Autonomous Driving with Latent World Model
通过优化视图选择,模型能在保证性能前提下,快速筛选出重要视图,利用预测的潜在特征替代未选视图特征,加速模型处理速度,满足自动驾驶实时性要求。其他未被选择的视图则不进行处理,其对应的视图潜在特征由世界模型预测的潜在特征替代。然后利用可学习的视图查询Q={},每个视图查询q与其对应的图像特征f进行交叉注意力计算,得到个观察视图潜在特征。E=V+H,这个E是增强视图潜在特征,H是前一帧生成的历史视图潜在特征H增强。基于增强视图潜在特征Et和预测的路标点Wt生成基于动作的视图潜在特征。
2025-02-28 17:17:08
656
原创 ROACH
与在无模型强化学习中常用的高斯分布相比,Beta 分布的取值范围是有界的,从而避免了为强制满足输入约束而进行的截断或挤压操作。Lppo使得新策略在保证性能提升的同时不会过度偏离旧策略,从而实现稳定的学习过程,引导策略网络朝着能获得更高奖励的方向调整动作决策,不断优化驾驶策略,例如在路口、弯道等场景下做出更合理的转向、加速或减速决策。比如在面对复杂交通状况时,车辆不会局限于已有的经验动作,而是有一定概率尝试新的操作方式,可能发现更优的驾驶路径或应对策略,提高模型在不同场景下的通用性。
2025-02-13 18:48:09
875
原创 端到端算法Uniad
传统的模式是用多个小model串起来,但这会有误差累积的问题,因此提出了UniAD,一个综合框架,把所有任务整合到一个网络。整一个网络都是为planner而进行设计的。UniAD多个共享BEV 特征的Transformer 网络首次将跟踪,建图,轨迹预测,占据栅格预测统一到一起, 并且使用不依赖高精地图的Planner 作为一个最终的目标输出,同时使用Plan 结果作为整体训练的loss 来源。虽然整体称为端到端,但是各个模块直接确实有着明显的界限和区隔,并非一个整体黑盒网络。
2025-02-08 00:44:57
320
原创 清华大学 GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction
一句话概括:搭建高斯世界模型,精准预测3D语义Occupancy。
2025-01-21 15:56:51
131
原创 自动驾驶&占用网格预测
⭐[ECCV 2024] SparseOcc 纯稀疏3D占用网络和 RayIoU 评估指标SparseOcc纯稀疏占用网络论文笔记(南大/上海AI LAB)3D Occupancy 探索V1.0 - T-MAC的文章 - 知乎最新综述!一览Occ与自动驾驶的前世今生,首篇综述全面汇总特征增强/量产部署/高效标注三大主题综述 Awesome-3D-Occupancy-PredictionAwesome-occupancy-perceptionAwesome-Occupancy-Prediction-
2025-01-17 18:09:30
603
原创 TCP代码精度
数据部分包含rgb,json和npy文件,然后将这三打包成一个整体的npy文件,train的时候只读取大的npy文件measurements存的json,rbg存的当前帧的照片,supervision存的npy文件。
2025-01-15 17:00:19
363
原创 3D高斯在自动驾驶中的应用
新视角合成是 3D 场景重建技术的一部分,旨在从现有数据中合成不同视角下的场景表示。它在自动驾驶中尤其重要,因为自动驾驶系统需要从多视角感知环境,生成完整的 3D 模型以提升车辆对环境的理解和反应能力。
2025-01-13 16:48:02
378
原创 (PVG)Periodic Vibration Gaussian:自动驾驶过程中的三维重建 论文解读
原本的3DGS只能用于静态场景,现在引入周期振动动态,将 3DGS 扩展为支持动态场景的 PVG,增加时间维度。每个高斯点被赋予动态特性,包括振动的中心位置(𝜇)和不透明度(o),这些特性随时间变化,可以有效捕捉动态运动。针对动态场景中的训练数据稀疏性问题,提出了一种基于平均速度(𝑣 )的时间平滑机制,增强了时间维度上的连续性。通过静态系数(ρ=β/l)区分静态和动态元素,ρ 较大表示静态点,较小表示动态点。针对无界场景的空间特性,通过调整高斯点的大小和分布,提高了表示的效率和质量。
2025-01-13 16:44:13
629
原创 TCP---Trajectory-guided Control Prediction for End-to-end Autonomous Driving(端到端)论文总结
Roach 输出的是车辆的低级控制信号:油门(throttle)、刹车(brake)、转向角(steering)。在TCP框架中,GRU模块被引入到控制分支,帮助实现多步控制信号的预测(例如未来几步的油门、刹车和转向预测)。GRU逐步接收当前的环境特征和预测的动作,将动态环境建模为一个“压缩的抽象状态”,从而预测未来的动作。控制分支的损失函数会将模型预测的控制信号与专家的控制信号进行对比,确保预测尽可能接近专家行为。控制分支从图像特征和测量特征中提取信息,结合当前预测的控制信号,逐步预测未来控制信号。
2025-01-09 16:47:28
680
原创 Neural Radiance Field in Autonomous Driving: A Survey(综述)
这篇论文讨论了Nerf在感知,3D重建,SLAM,模拟等方面的应用,接下来一个个简单读论文。
2025-01-08 17:36:52
381
原创 Vista: A Generalizable Driving World Model with论文精读(未完成)
Vista: A Generalizable Driving World Model withHigh Fidelity and Versatile Controllability
2025-01-06 20:10:46
132
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人