自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(93)
  • 收藏
  • 关注

原创 【强化学习入门笔记】3.3 Actor-Critic方法: QAC,A2C

Advantage actor-critic在QAC的基础上, 在策略梯度中添加了一个标量函数bSb(S)bS, 来减少估计方差.ES∼ηA∼π∇θln⁡πA∣SθtqπSAES∼ηA∼π∇θln⁡πA∣SθtqπSA−bSES∼ηA∼π​∇θ​lnπA∣Sθt​qπ​SAES∼ηA∼π​∇θ​lnπA∣Sθt​qπ​。

2025-02-18 22:07:52 951

原创 【动手学轨迹预测】3.1 基于锚点的轨迹预测

在Decoder解码部分, 需要得到自车与其他agent, 环境的交互信息, 进而得到最终的预测轨迹. 其中基于锚点的预测方法, 是指解码阶段不直接输出完整轨迹, 而是先预测出某个时间步的多个可能状态. 比如先预测出t3.0sXit​xit​yit​vit​θit​...

2025-02-17 21:18:19 773

原创 【动手学运动规划】5.5 基于PiecewiseJerk的路径优化方法

SL坐标系下, 给定路径总长lengthlengthlength, 我们将路径均匀的离散成nnn个点(上图中的蓝点), 其中ΔslengthnΔslengthn. 我们定义3n3n3nlil_ili​:第iii个点的横向坐标,li′l_i'li′​:第iii个点的横向偏差的1阶导数, 代表横向的速度li′′l_i''li′′​:第iii个点的横向偏差的2阶导数, 代表横向的加速度。

2025-02-16 17:50:01 875

原创 【强化学习入门笔记】3.2 策略梯度法:REINFORCE

本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.既然我们可以用函数拟合值函数, 那么是否可以直接拟合策略呢?本节将介绍策略梯度法.

2025-02-11 22:04:33 818

原创 【动手学运动规划】5.4 二次规划问题:QP优化

二次规划(Quadratic Programming)优化,是指优化问题的目标函数为二次函数, 且约束条件为线性的问题。minimize⁡12xTPxqTxsubject tol≤Ax≤uminimizesubject to​21​xTPxqTxl≤Ax≤u​决策变量是x∈Rnx∈Rn目标函数: 二次函数, 矩阵P∈Rn×nP∈Rn×n并是一个对称矩阵, 向量q∈Rnq∈Rn。

2025-02-10 22:21:16 889

原创 【Cruise】VLM-AD:通过视觉-语言模型监督实现端到端自动驾驶

人类驾驶员依赖常识推理来应对复杂多变的真实世界场景。现有的端到端(E2E)自动驾驶(AD)模型通常被优化以模仿数据中观察到的驾驶模式,而没有捕捉到背后的推理过程。这一限制制约了它们处理具有挑战性的驾驶场景的能力。为了弥补这一差距,我们提出了VLM-AD,这是一种利用视觉-语言模型(VLMs)作为教师来增强训练的方法,通过提供额外的监督,结合非结构化推理信息和结构化动作标签。这种监督增强了模型学习更丰富的特征表示的能力,这些特征表示能够捕捉驾驶模式背后的理由。

2025-01-18 08:00:00 769

原创 【清华】LDMapNet-U:用于城市规模车道级地图更新的端到端系统

最新的城市级车道级地图是确保自动驾驶系统安全和用户体验的关键基础设施和关键技术。在工业场景中,依赖人工标注的地图更新造成了关键瓶颈。车道级更新需要精确的变化信息,并且必须确保与相邻数据的一致性,同时遵循严格的标准。传统方法采用构建、变化检测和更新的三阶段方法,由于准确性限制,通常需要人工验证。这导致劳动密集型过程,阻碍了及时更新。为解决这些挑战,我们提出了LDMapNet-U,它实现了城市级车道级地图更新的新端到端范式。

2025-01-17 11:08:29 1072

原创 【动手学轨迹预测】2.6 预测编码模块中的Transformer

自从Transformer横空出世, 预测网络也大量应用了注意力机制多头机制, 效果提升非常显著. 本节将介绍它们在轨迹预测网络中的应用.

2025-01-17 11:07:30 1029

原创 【动手学轨迹预测】2.6 预测编码模块中的Transformer

自从Transformer横空出世, 预测网络也大量应用了注意力机制多头机制, 效果提升非常显著. 本节将介绍它们在轨迹预测网络中的应用.

2025-01-15 10:31:20 379

原创 【动手学运动规划】 5.3.c 线搜索方法代码解析

欲说还休,欲说还休。却道天凉好个秋. — 辛弃疾🏰:请参考!

2025-01-15 10:30:33 979

原创 【动手学运动规划】 5.3.c 线搜索方法代码解析

欲说还休,欲说还休。却道天凉好个秋. — 辛弃疾🏰:请参考!

2025-01-14 10:04:03 942

原创 【强化学习入门笔记】3.1 值函数估计和Deep Q-learning

如图, 在之前的算法中, 我们通过离散的表格来表达每个状态对应的值. 这种表征方式数据存储量大, 我们可以用一个函数来拟合值函数.比如使用最简单的线性函数,s是状态参数, 向量wvswasbϕTss1​​wab​​​ϕTswvswas2bscϕTss2s1​​w​abc​​​​ϕTsw或者是用神经网络作为拟合函数, 它是一个黑盒:之前介绍的各种迭代方法, 都需要逐步更新状态值;

2025-01-13 10:13:38 945

原创 【动手学轨迹预测】2.5 时序数据处理模块

完成了场景数据的表征之后, 我们可以将表征结果输入到预测网络中了. 网络需要搭建合适的模型处理这些不同的输入数据, 大体可以分为时序数据(轨迹等)和静态数据(地图等).Xit​xit​yit​vit​θit​...我们将回顾处理时序数据的几种常见网络, 关于这些常见网络的详细解读可以前往参考链接学习.

2025-01-08 20:56:07 1065

原创 【动手学运动规划】 5.3 数值优化基础:线搜索

人生如逆旅,我亦是行人。— 宋 苏轼🏰:请参考!那么有没有什么方法, 可以得到最佳步长呢?线搜索就是确定步长的常见方式.

2025-01-07 22:25:44 1056

原创 【强化学习入门笔记】 2.5 Sarsa和Q-learning

本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.2.5.1 Sarsa系列之前介绍的时序差分算法是用来计算给定策略π\piπ和其状态sss的状态值期望vπ(s)v_\pi(s)vπ​(s), 那么能不能直接估计动作值期望呢? 这也就是Sarsa方法.2.5.1.1 Sarsa给定策略π\piπ, 我们可以用以下算法估计动作值:qt+1(st,at)=qt(st,at)−αt(st,at)[qt(st,at)−(rt+1+γqt(st+1,at+1))],q_{t+1}\left(s

2025-01-07 22:24:56 781

原创 【强化学习入门笔记】 2.5 Sarsa和Q-learning

本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.2.5.1 Sarsa系列之前介绍的时序差分算法是用来计算给定策略π\piπ和其状态sss的状态值期望vπ(s)v_\pi(s)vπ​(s), 那么能不能直接估计动作值期望呢? 这也就是Sarsa方法.2.5.1.1 Sarsa给定策略π\piπ, 我们可以用以下算法估计动作值:qt+1(st,at)=qt(st,at)−αt(st,at)[qt(st,at)−(rt+1+γqt(st+1,at+1))],q_{t+1}\left(s

2025-01-05 21:02:43 1019

原创 【清华&理想】GaussianAD: Gaussian-Centric 高思中心端到端自动驾驶

基于视觉的自动驾驶因其令人满意的性能和低成本显示出巨大潜力。大多数现有方法采用密集表示(例如,鸟瞰图)或稀疏表示(例如,实例框)进行决策,这些方法在全面性和效率之间存在权衡。本文探索了一个以高斯为中心的端到端自动驾驶(GaussianAD)框架,并利用3D语义高斯来广泛但稀疏地描述场景。我们用均匀的3D高斯初始化场景,并使用周围视图图像逐步完善它们以获得3D高斯场景表示。然后我们使用稀疏卷积来高效执行3D感知(例如,3D检测,语义地图构建)。

2025-01-02 21:24:19 1241

原创 【动手学轨迹预测】2.4 考虑地图拓扑关系的表征方法

上一节我们介绍了VectorNet提出了矢量化场景表征方法, 大幅提高了预测网络编码性能. 但是VectorNet对地图数据的编码是基于无向无权图的, 并没有考虑到地图的拓扑关系.显然在预测中, 地图的拓扑关系应该被考虑到. 于是在VectorNet的基础上, LaneGCN提出一种将地图车道作为节点, 并考虑车道间的拓扑关系的预测网络.

2025-01-01 20:02:58 751

原创 【动手学运动规划】 5.2.c 梯度下降法,牛顿法代码解析

我猜中了开头,但我猜不中这结局。— 大话西游 紫霞🏰:请参考!

2025-01-01 20:02:08 883

原创 【动手学运动规划】 5.2.c 梯度下降法,牛顿法代码解析

我猜中了开头,但我猜不中这结局。— 大话西游 紫霞🏰:请参考!

2024-12-30 22:44:30 1019

原创 【强化学习入门笔记】 2.4 时序差分算法

假设我们基于一个策略π\piπ, 按时间步顺序生成了一组状态和奖励:s0r1s1strt1st1s0​r1​s1​st​rt1​st1​, 用下式更新vt1v_{t+1}vt1​vt1st⏟vtst⏟−αtstvtst−rt1γvtst1⏟TD targetvˉt⏞TD errorδtvt1​st​​​vt​st​。

2024-12-29 23:13:44 740

原创 【强化学习入门笔记】 2.3 蒙特卡洛方法

本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.本节我们将介绍强化学习中的蒙特卡洛方法.

2024-12-25 23:06:49 951

原创 【动手学轨迹预测】2.3 场景表征方法

场景表征是指在所有可用的场景信息数据中, 提取出对于预测网络有用的数据, 并将其转换为易于模型学习的数据格式. 对于预测网络来说, 最重要的数据是交通参与者的历史轨迹和地图信息, 表达它们的常见方法有:栅格化和稀疏化。

2024-12-24 21:00:21 812

原创 【动手学运动规划】 5.2 数值优化基础:梯度下降法,牛顿法

朕四季常服, 不过八套. — 大明王朝1566 道长🏰:请参考!上一节我们介绍了数值优化的基本概念, 让大家对最优化问题有了基本的理解.那么对于一个具体的问题, 我们应该如何求解呢?这一节我们将介绍几个基本的求解方法, 为了简化问题, 我们会基于无约束凸优化问题来做解释. 因为无约束凸优化问题, 梯度为0的点(极值点), 就是全局最优解.最优化问题的求解是一个迭代的过程, 从初始点(初始解)x0​开始, 通过迭代方法(梯度下降法, 牛顿法等)逐步更新xi​, 直至逼近最优解x∗。

2024-12-22 22:09:06 624

原创 【动手学轨迹预测】2.2 Frenet坐标系

首先我们需要了解什么是Frenet坐标系, 是一种在几何学和物理学中常用的坐标系,特别是在轨迹规划和机器人控制中,它能够更直观地表示车辆在弯曲道路上的位置。

2024-12-17 21:42:13 978

原创 【动手学运动规划】 5.1 数值优化基础:基本概念

这世界,有太多不如意,可你的生活还是要继续。— 武林外传🏰:请参考!本章节将介绍基于优化的规划算法, 最优化计算方法是运筹学、计算数学、机器学习和数据科学与大数据技术等专业的一门核心课程。最优化问题通常需要对实际需求进行定性和定量分析,建立恰当的数学模型来描述该问题,设计合适的计算方法来寻找问题的最优解,探索研究模型和算法的理论性质,考察算法的计算性能等多方面。后续我们会开设专栏系统的介绍数值优化, 大家也可以自行阅读专业书籍进行系统性学习. 推荐北京大学文再文老师的。

2024-12-16 22:23:49 801

原创 【强化学习入门笔记】 2.2 策略迭代和截断策略迭代

本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.本节我们将介绍强化学习中的策略迭代求解方法.2.2.1 算法步骤跟值迭代类似, 策略迭代也是一个迭代的方法, 主要分为策略计算(PE)和策略提升(PI)两步.2.2.1.1 策略计算(PE)首先在当前策略πk\pi_kπk​的基础上, 计算状态值vπkv_{\pi_k}vπk​​, 实际就是求解贝尔曼公式:vπk=rπk+γPπkvπk,v_{\pi_k}=r_{\pi_k}+\gamma P_{\pi_k} v_{\pi_k},

2024-12-15 20:23:18 945

原创 【理想汽车&中科院】基于模仿学习的端到端自动驾驶数据缩放规律

端到端自动驾驶范式因其可扩展性而最近吸引了大量关注。然而,现有方法受到现实世界数据规模有限的制约,这阻碍了对端到端自动驾驶相关扩展规律的全面探索。为了解决这一问题,我们从各种驾驶场景和行为中收集了大量数据,并针对现有的基于模仿学习的端到端自动驾驶范式进行了扩展规律的广泛研究。具体来说,我们收集了来自23种不同场景类型的大约400万个演示,总计超过30,000小时的驾驶演示。我们在严格的评估条件下,在1,400个多样化驾驶演示中进行了开环评估和闭环仿真评估(开环1,300个,闭环100个)。

2024-12-13 18:35:04 1532

原创 UniScene:Video、LiDAR 和Occupancy全面SOTA

生成高保真度、可控制且带有标注的训练数据对于自动驾驶至关重要。现有方法通常直接从粗糙的场景布局生成单一形式的数据,这不仅无法输出多样化下游任务所需的丰富数据形式,而且在模拟直接从布局到数据的分布上也存在困难。在本文中,我们介绍了UniScene,这是第一个统一框架,用于生成驾驶场景中的三种关键数据形式——语义占用、视频和LiDAR。

2024-12-12 22:42:01 1243

原创 【动手学运动规划】 4.6 Hybrid A*算法

Hybrid A* 是 2004 年 DARPA 城市挑战中的冠军车队使用的全局导航算法。相比与传统的 A* 算法,Hybrid A* 将由基于栅格地图的四邻域、八邻域的节点拓展方式,更换为符合车辆动力学(Kinodynamic) 的运动轨迹,见下图:由于车辆运动学模型的限制,车辆无法安全按照A所生成的路径行走,而Hybrid A。

2024-12-11 21:20:40 1705

原创 【强化学习入门笔记】 2.1 值迭代

本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.本节我们将介绍强化学习中的值迭代求解方法.

2024-12-11 21:18:10 917

原创 【强化学习入门笔记】 2.1 值迭代

本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.本节我们将介绍强化学习中的值迭代求解方法.

2024-12-10 21:42:55 1049

原创 【动手学轨迹预测】2.1 场景表征的坐标系

预测的核心是理解所处的交通场景, 因此轨迹预测网络首先需要将数据处理成易于模型学习的形式, 并对输入数据进行编码. 本章将介绍常见的输入数据形式和数据编码方法.预测模块输入数据的坐标系一般是在城市维度下的绝对坐标系下采集的, 而训练一般是按独立场景训练. 因此需要将坐标系进行适当转换.常用的坐标系转换方法有:Scene-Centric, Agent-Centric,相对坐标系和Frenet坐标系, 接下来将介绍这几种方法.

2024-12-08 23:13:59 799

原创 【华科X地平线】DiffusionDrive:端到端截断扩散模型

最近,扩散模型作为一种强大的生成式技术,已经出现在机器人策略学习领域,能够建模多模态动作分布。利用其进行端到端自动驾驶的能力是一个有前景的方向。然而,机器人扩散策略中的众多去噪步骤以及交通场景更加动态、开放世界的特性,对于实时速度下生成多样化驾驶动作构成了巨大挑战。为了应对这些挑战,我们提出了一种新颖的截断扩散策略,该策略结合了先前的多模态锚点,并截断了扩散计划,使模型能够从锚定的高斯分布中学习去噪,直至多模态驾驶动作分布。此外,我们设计了一种高效的级联扩散解码器,以增强与条件场景上下文的交互。

2024-12-06 23:18:39 1256

原创 【清华】世界模型综述:理解世界还是预测未来?

世界模型(World Models)在人工智能领域中的定义和分类是多样化的,但普遍认同的是它们作为理解和预测世界的工具。根据最新的综述文献,我们可以将世界模型定义为AI系统内部构建的一种抽象表示,用于描述、理解和预测外部环境的状态及其变化。这种模型融合了AI系统从传感器接收的原始数据,通过复杂的处理和分析,形成对外部世界的全面认知和预测。在分类上,世界模型主要分为两大类:内部表征和未来预测。内部表征的世界模型侧重于学习和内化世界知识,以支持后续的决策制定;

2024-12-05 21:33:52 1799

原创 【强化学习入门笔记】1.5 贝尔曼最优公式

fixed point(不动点)如果x∗x^*x∗满足下式,x∗x^*x∗称之为fixed point(不动点)fx∗x∗fx∗x∗Contraction mapping (收缩映射)如果一个函数满足下面不等式, 则称这个函数满足Contraction mapping∥fx1−fx2∥≤γ∥x1−x2∥γ∈01∥fx1​−fx2​∥≤γ∥x1​−x2​∥γ∈01。

2024-12-04 21:34:16 1224

原创 【动手学运动规划】 4.5 A*算法

Dijkstra算法是基于广度优先搜索策略来遍历空间内的所有节点,最终计算出全局最优的路径,其计算量非常大。而基于启发式的贪婪最佳优先搜索(greedy best first search,GBFS)速度快,但结果可能不是最优的。那么,如何将二者的优势结合呢,即在Dijkstra算法基础上,引入启发式策略。这就是A*算法。🌟**Note:**最佳优先搜索算法是在广度优先搜索的基础上,用启发估价函数对将要被遍历到的点进行估价,然后选择代价小的进行遍历,直到找到目标节点或者遍历完所有点,算法结束。

2024-12-03 22:11:22 675

原创 【动手学轨迹预测】1.7 常用数据集: Argoverse

Argoverse数据集是一个由Argo AI公司发布的大规模自动驾驶数据集,旨在支持自动驾驶领域的多种研究任务,如3D跟踪、运动预测、立体深度估计等。与Waymo Open Dataset一样, Argoverse也是一个免费开源数据集.

2024-12-02 21:13:12 1876

原创 【强化学习入门笔记】1.4 贝尔曼公式

本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.

2024-11-29 09:00:00 802

原创 【动手学运动规划】 4.4 Dijkstra算法

你不能改变过去,但你可以改变未来。—《狮子王》🏰:请参考!DFS算法无法找到最优解,BFS算法仅仅适用于无权图或者权重相同的图,而Dijkstra算法适用于带有的有向图和无向图。其由荷兰计算机科学家Edsger W. Dijkstra在1956年提出,是一种用于在图中找到单源最短路径的算法,解决了从图中一个顶点到其他所有顶点的最短路径问题,此外,如果知道了源节点到目标节点的最短路径,算法也可以提前终止。

2024-11-28 09:15:00 941

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除