自动驾驶中的多任务感知技术解析
在自动驾驶领域,多任务感知是实现安全、高效驾驶的关键。本文将深入探讨语言到视觉适配器、GT - Prompt以及3D感知中的Fuller框架等相关技术,介绍其原理、结构和优化方法。
语言到视觉适配器
为了使文本特征与密集的FPN特征对齐,提出了语言到视觉适配器(Language - to - Vision Adapter),将语言先验知识融入视觉特征中。具体来说,将上层P5的最后一个特征图记为$z_5 \in R^{H_5W_5×C}$,目标是学习一个适配器函数$A_{L→V}$,为下游任务生成语言感知上下文。使用Transformer解码器中的交叉注意力机制进行语言到视觉的适配:
$A_{L→V} (\hat{T}_e, z_5) = TransDecoder(q = z_5, k\&v = \hat{T}_e)$
其中,$q$、$k$、$v$分别代表查询、键和值。为简化,在上述公式中省略了用于调整$\hat{T}_e$通道数的单个线性全连接层。将该公式的输出记为$\tilde{z}_5 \in R^{H_5W_5×C}$,并直接用$\tilde{z}_5$替换$z_5$,同时保持特定任务的头部设计不变。
GT - Prompt
多任务学习的关键在于学习任务间通用且明确的表示,并建立它们之间的关系。GT - Prompt由三个部分组成:
1. 通用提示(G - Prompt) :由轻量级提示块生成,用于学习任务不变的知识。
2. 特定任务提示(T - Prompt) :由预训练的图像编码器生成,用于编
超级会员免费看
订阅专栏 解锁全文
3万+

被折叠的 条评论
为什么被折叠?



