16、基于深度神经网络的零样本学习目标识别方法解析

study

于 2025-08-14 13:49:01 发布

阅读量30

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习的多维世界文章标签：零样本学习深度神经网络目标识别

本文链接：https://blog.youkuaiyun.com/study/article/details/151056738

深度学习的多维世界专栏收录该内容

34 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于深度神经网络的零样本学习目标识别方法解析

1. 线性投影与非线性回归方法

在零样本学习（ZSL）中，有一种方法是先将视觉样本线性投影到语义空间进行编码，再将结果投影回视觉空间进行解码。然而，这个问题没有直接的闭式解，但可以表示为西尔维斯特方程，利用Bartels - Stewart算法能高效计算数值解。在测试阶段，可以在语义空间或视觉空间进行预测。

之前的方法大多是在视觉和语义两种模态间进行线性投影，不过也可以采用非线性回归方法，如Cross - Modal Transfer（CMT）。它是一个简单的全连接、单隐藏层的神经网络，使用双曲正切非线性函数，用于从视觉特征预测语义原型。其目标函数可表示为：
[
\frac{1}{N} \sum_{n} |t_n - W_2 \tanh(W_1 x_n)|_2^2
]
其中，(W_1 \in R^{H×D}) 和 (W_2 \in R^{K×H}) 是模型参数，(H) 是隐藏层维度，属于超参数。与线性方法相比，非线性投影的主要缺点是没有通用的闭式解，需要使用迭代数值算法来确定合适的参数值。

2. 三元组损失方法

三元组损失方法更直接地利用了兼容性函数 (f)。其核心思想是匹配对的兼容性应远高于非匹配对。具体来说，对于带有标签 (y) 的视觉样本 (x)，它与对应原型 (s_y) 的兼容性应远高于与不同类 (c \neq y) 的原型 (s_c) 的兼容性。通过引入边距 (m) 可以更精确地定义“远高于”，即 (f(x, s_y) \geq m + f(x, s_c))。为了强制满足这个约束，可以使用三元组损失来惩罚不满足该不等式的三元组 ((x, s_y, s_c))，其

会员秒杀 ¥9.9 重磅福利

超级会员免费看