基于深度神经网络的零样本学习目标识别方法解析
1. 线性投影与非线性回归方法
在零样本学习(ZSL)中,有一种方法是先将视觉样本线性投影到语义空间进行编码,再将结果投影回视觉空间进行解码。然而,这个问题没有直接的闭式解,但可以表示为西尔维斯特方程,利用Bartels - Stewart算法能高效计算数值解。在测试阶段,可以在语义空间或视觉空间进行预测。
之前的方法大多是在视觉和语义两种模态间进行线性投影,不过也可以采用非线性回归方法,如Cross - Modal Transfer(CMT)。它是一个简单的全连接、单隐藏层的神经网络,使用双曲正切非线性函数,用于从视觉特征预测语义原型。其目标函数可表示为:
[
\frac{1}{N} \sum_{n} |t_n - W_2 \tanh(W_1 x_n)|_2^2
]
其中,(W_1 \in R^{H×D}) 和 (W_2 \in R^{K×H}) 是模型参数,(H) 是隐藏层维度,属于超参数。与线性方法相比,非线性投影的主要缺点是没有通用的闭式解,需要使用迭代数值算法来确定合适的参数值。
2. 三元组损失方法
三元组损失方法更直接地利用了兼容性函数 (f)。其核心思想是匹配对的兼容性应远高于非匹配对。具体来说,对于带有标签 (y) 的视觉样本 (x),它与对应原型 (s_y) 的兼容性应远高于与不同类 (c \neq y) 的原型 (s_c) 的兼容性。通过引入边距 (m) 可以更精确地定义“远高于”,即 (f(x, s_y) \geq m + f(x, s_c))。为了强制满足这个约束,可以使用三元组损失来惩罚不满足该不等式的三元组 ((x, s_y, s_c)),其
超级会员免费看
订阅专栏 解锁全文
9万+

被折叠的 条评论
为什么被折叠?



