自动驾驶中的多任务感知技术解析
在自动驾驶领域,多任务感知是一个关键的研究方向,它涉及到对多种视觉和三维信息的处理和理解。本文将介绍一些相关的技术,包括语言到视觉适配器、GT - Prompt多任务学习框架以及Fuller三维感知框架。
1. 语言到视觉适配器
为了使文本特征和密集的FPN(特征金字塔网络)特征对齐,研究人员提出了语言到视觉适配器(Language - to - Vision Adapter),将语言先验知识融入到视觉特征中。
具体来说,将上层P5的最后一个特征图表示为$z_5 \in R^{H_5W_5×C}$,目标是学习一个适配器函数$A_{L→V}$,为下游任务生成具有语言感知的上下文信息。这里利用Transformer解码器中的交叉注意力机制进行语言到视觉的适配:
$A_{L→V} (\hat{T}_e, z_5) = TransDecoder(q = z_5, k\&v = \hat{T}_e)$
其中,$q$、$k$、$v$分别代表查询(query)、键(key)和值(value)。为了简化,在公式中省略了用于调整$\hat{T}_e$通道数的单个线性全连接层。将该公式的输出表示为$\tilde{z}_5 \in R^{H_5W_5×C}$,然后用$\tilde{z}_5$替换$z_5$,而任务特定的头部设计保持不变。
2. GT - Prompt多任务学习框架
多任务学习的关键在于学习任务之间通用且明确的表示,并建立它们之间的关系。GT - Prompt框架由三个部分组成:
- 通用提示(G - Prompt) :由轻量级提示块生成
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



