16、基于深度神经网络的零样本学习目标识别方法解析

基于深度神经网络的零样本学习目标识别方法解析

1. 线性投影与非线性回归方法

在零样本学习(ZSL)中,有一种方法是先将视觉样本线性投影到语义空间进行编码,再将结果投影回视觉空间进行解码。然而,这个问题没有直接的闭式解,但可以表示为西尔维斯特方程,利用Bartels - Stewart算法能高效计算数值解。在测试阶段,可以在语义空间或视觉空间进行预测。

之前的方法大多是在视觉和语义两种模态间进行线性投影,不过也可以采用非线性回归方法,如Cross - Modal Transfer(CMT)。它是一个简单的全连接、单隐藏层的神经网络,使用双曲正切非线性函数,用于从视觉特征预测语义原型。其目标函数可表示为:
[
\frac{1}{N} \sum_{n} |t_n - W_2 \tanh(W_1 x_n)|_2^2
]
其中,(W_1 \in R^{H×D}) 和 (W_2 \in R^{K×H}) 是模型参数,(H) 是隐藏层维度,属于超参数。与线性方法相比,非线性投影的主要缺点是没有通用的闭式解,需要使用迭代数值算法来确定合适的参数值。

2. 三元组损失方法

三元组损失方法更直接地利用了兼容性函数 (f)。其核心思想是匹配对的兼容性应远高于非匹配对。具体来说,对于带有标签 (y) 的视觉样本 (x),它与对应原型 (s_y) 的兼容性应远高于与不同类 (c \neq y) 的原型 (s_c) 的兼容性。通过引入边距 (m) 可以更精确地定义“远高于”,即 (f(x, s_y) \geq m + f(x, s_c))。为了强制满足这个约束,可以使用三元组损失来惩罚不满足该不等式的三元组 ((x, s_y, s_c)),其

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值