34、自动驾驶中的多任务感知技术解析

自动驾驶中的多任务感知技术解析

在自动驾驶领域,多任务感知是一个关键的研究方向,它涉及到对多种视觉和三维信息的处理和理解。本文将介绍一些相关的技术,包括语言到视觉适配器、GT - Prompt多任务学习框架以及Fuller三维感知框架。

1. 语言到视觉适配器

为了使文本特征和密集的FPN(特征金字塔网络)特征对齐,研究人员提出了语言到视觉适配器(Language - to - Vision Adapter),将语言先验知识融入到视觉特征中。

具体来说,将上层P5的最后一个特征图表示为$z_5 \in R^{H_5W_5×C}$,目标是学习一个适配器函数$A_{L→V}$,为下游任务生成具有语言感知的上下文信息。这里利用Transformer解码器中的交叉注意力机制进行语言到视觉的适配:
$A_{L→V} (\hat{T}_e, z_5) = TransDecoder(q = z_5, k\&v = \hat{T}_e)$
其中,$q$、$k$、$v$分别代表查询(query)、键(key)和值(value)。为了简化,在公式中省略了用于调整$\hat{T}_e$通道数的单个线性全连接层。将该公式的输出表示为$\tilde{z}_5 \in R^{H_5W_5×C}$,然后用$\tilde{z}_5$替换$z_5$,而任务特定的头部设计保持不变。

2. GT - Prompt多任务学习框架

多任务学习的关键在于学习任务之间通用且明确的表示,并建立它们之间的关系。GT - Prompt框架由三个部分组成:
- 通用提示(G - Prompt) :由轻量级提示块生成

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值