端到端无人驾驶文献学习:End-to-end Interpretable Neural Motion Planner

1 简介

由Uber高级技术小组与多伦多大学合作完成的End-To-End Interpretable Neural Motion Planner是一篇关于端到端的可解释的神经运动规划器文献,发在CVPR_2019上。论文通过将检测、感知、预测和计划整合到单个神经网络中,该神经网络生成单个模块的输出以及用于计划的成本函数。这些输出可以被检查,从而提高最终驾驶决策的可解释性。

关键点

从前文得到的一些关键信息,帮助理解全文:

  1. 动机(motivation):产生可解释中间表示帮助人理解机器生成的规划控制信息;
  2. 输入-中间表示-输出 :输入是原始雷达数据和HD地图,中间表示是3D检测和轨迹预测信息,输出是规划视野上车辆可选择位置的cost volume;
  3. 轨迹采样:用Sampling的方法采样轨迹,基于位置成本量捕获多模态轨迹信息;
  4. 数据集:北美几个城市的真实驾驶数据;
  5. 实验结果:更安全的规划轨迹;

一些背景信息

目前通用技术有两种:mid2mid,end2end;

  1. mid2mid(传统堆栈技术),优点:主问题子问题化,商业化成熟,具有人为选择的成分在其中,可解释性强,通过先验知识来进行行为决策;缺点:每个子问题的输入输出经过人为标准的选择可能会导致次优问题出现,子问题的impove不一定能够提高整个系统的表现,子问题划分越多计算时间越多,SDV(self-driving-vehicle)反应时间越慢;
  2. end2end(端到端驱动框架),优点:框架结构简单,理论可行,想法超前,通过修改模型框架的提高对系统表现有明显的提升;缺点:可解释性差,难以融合先验知识。

3 深度结构化规划

在这里插入图片描述

3.1 深度结构化规划

s = s= s={ s 0 , s 1 , . . . , s T − 1 s^0,s^1,...,s^{T-1} s0,s1,...,sT1} 看作是跨越未来时间步骤 T 上的轨迹, s t s^t st 表示时间步骤 t 式在鸟瞰图(BEV)上的位置。那么最小化轨迹就可以表示成
s ∗ = a r g m i n s ∑ t c t ( s t ) s^*=arg\underset{s}{min} \underset{t}{\sum}c^t(s^t) s=argsmintct(st)
c t c^t ct表示在时间t时的学习成本量索引,最小化轨迹通过采样近似得到。

通过卷积网络骨干计算成本量,从原始LiDAR数据和高精地图中提取特征,输入到卷积网络的两个分支中计算和成本量一样输出3D检测和行为预测。

输入表示

原始点云作为输入,通过顶部的雷达捕获。用连续10个时间步骤来作为预测的观察数据。利用这些扫描图来修正自我运动,将过去10帧的点云带入以SDV为中心的坐标系中。

为了使输入数据适合标准卷积,遵循 Intentnet:Learning to predict intention from raw sensor data 并将空间栅格化为3D占用网格,其中每个体素都有一个二进制值,指示它是否包含一个LiDAR点。 这导致了尺寸为 H ∗ W ∗ ( Z T ′ ) H*W*(ZT') HW(ZT) 的三维张量,其中Z、H、W分别表示高度和x-y空间维数。本文沿着Z维串联了时间步骤,从而避免了内存和计算密集型的3D卷积。

加入包含语义信息的HD地图,与Intentnet:Learning to predict intention from raw sensor data类似,对地图进行栅格化,形成M通道张量,其中每个通道代表不同的地图元素。

骨干网络

主干是从 Pixor: Realtime 3d object detection from point clouds 的检测网络改编而来的,由五个块组成。 每个块都有{2,2,3,6,5}Conv2D层,过滤数为{32,64,128。 256,256},过滤器大小3x3和步长为1。每3层后接一个MaxPool。

在前4个块之后生成多尺度特征映射调整到输入大小的1/4,并将它们连接在一起,以增加有效的接收场[。 这些多尺度特征然后被输入到第五块。 整个骨干下采样率为4。

感知头

感知头有两个组成的卷积层,一个用于分类,一个用于回归。 为了减少回归目标的方差,在每个特征映射位置使用多个预处理锚盒 a i , j a a_{i,j}^{a} ai,ja,其中下标i,j表示特征映射上的位置,k索引在锚上。 总共有12个锚在每个位置,有不同的大小,纵横比和方向。

分类分支为每个锚输出一个分数 P i , j k P_{i,j}^{k} Pi,jk,指示车辆在每个锚的位置的概率。回归分支还在不同的时间步骤为每个锚 a i , j a a_{i,j}^{a} ai,ja输出回归目标。 这包括定位偏移 l x t l_{x}^{t} lxt l y t l_{y}^{t} lyt,大小 s w t s_{w}^{t} swt l h t l_{h}^{t} lh

<think>嗯,用户想了解STAR-RL算法在病理图像超分辨率中的应用,还有具体的实现和解释。首先,我需要回忆一下STAR-RL的基本概念。STAR-RL是Spatial-temporal Hierarchical Reinforcement Learning的缩写,对吧?那应该涉及到空间和时间的分层强化学习结构。我之前读过TopoAL的论文,里面提到过类似的分层方法用于道路分割,可能和空间结构有关联,不过这里的应用是病理图像超分辨率,所以需要结合超分辨率的特点。 病理图像超分辨率的关键在于恢复高分辨率细节,这对诊断很重要。传统方法可能有局限性,比如CNN-based方法可能在复杂纹理上表现不佳。而强化学习,特别是分层结构,可能能更好地处理多尺度信息和时间依赖性。STAR-RL中的空间分层可能是指不同层次处理不同尺度的图像区域,而时间分层可能涉及逐步细化分辨率的过程。 接下来,实现部分可能需要分层次设计。比如高层策略决定整体区域的关注点,中层处理局部块,低层负责像素级的细节。这样的分层结构有助于解释性,因为每个层次的任务明确。奖励函数的设计可能结合像素级的差异(如PSNR)和感知质量指标(如SSIM)。同时,对抗学习可能被引入,类似TopoAL中的对抗训练,来增强细节生成的真实性。 在解释性方面,分层结构自然提供了不同层次的决策依据,比如高层关注重要组织区域,中层细化结构,低层优化纹理。可视化各层的注意力图或策略路径可能帮助理解模型如何逐步重建图像。此外,时间维度可能涉及多步迭代优化,逐步提升分辨率,每一步都有明确的改进目标。 用户可能还想知道具体的网络架构、训练技巧、评估指标,以及如何在实际病理图像上应用。需要确保回答涵盖算法结构、实现关键点、解释性方法和应用场景,同时引用相关文献,比如TopoAL的方法作为参考。还要注意使用正确的LaTeX格式,行内公式用$...$,独立公式用$$...$$,并生成相关问题引导进一步学习。</think>### STAR-RL 算法及其在病理图像超分辨率中的应用 #### 1. 算法核心思想 STAR-RL(Spatial-temporal Hierarchical Reinforcement Learning)通过**空间-时间分层强化学习框架**实现病理图像超分辨率。其核心是将超分辨率任务分解为: - **空间分层**:在$n \times n$像素块级别处理局部特征,通过注意力机制聚焦关键区域[^1] - **时间分层**:在多时间步中逐步优化分辨率,每个步骤对应特定放大倍数 #### 2. 实现关键模块 ```python class STAR_RL(nn.Module): def __init__(self): # 高层策略网络(决定区域关注优先级) self.high_level = SpatialAttention() # 中层Q网络(处理局部块优化) self.mid_level = QNetwork() # 低层执行器(像素级操作) self.low_level = PixelOptimizer() def forward(self, lr_img): region_weights = self.high_level(lr_img) # 空间重要性评估 patch_sequence = self.mid_level(lr_img, region_weights) hr_output = self.low_level(patch_sequence) return hr_output ``` #### 3. 奖励函数设计 $$R(s_t,a_t) = \alpha \cdot \text{PSNR}(y_t,y_{true}) + \beta \cdot \text{SSIM}(y_t,y_{true}) - \gamma \cdot \text{Complexity}(a_t)$$ 其中$\alpha,\beta,\gamma$为权重系数,$y_t$为中间输出,$y_{true}$为真实高分辨率图像 #### 4. 解释性实现 通过三层结构提供可解释性: 1. **高层决策可视化**:生成区域关注热力图 2. **中层路径追踪**:记录patch处理顺序 3. **低层操作记录**:保存像素级修改日志 #### 5. 病理图像适配 - 使用病理先验知识约束动作空间,如细胞形态学规则 - 引入对抗训练增强细节真实性(参考TopoAL的对抗学习架构[^1]) - 支持$4\times$到$40\times$的多尺度放大
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值