视觉图像二进制表示学习:原理与应用
1. 什么是二进制表示学习
在当今的数据时代,多媒体数据呈现出复杂且高维的特征,其增长得益于先进且计算高效的相似性度量方法。二进制表示学习,也称为哈希或学习哈希,是从高维实值数据中提取有意义二进制特征或表示的技术。这些二进制表示,通常是 0 和 1 或 -1 和 1 的序列,在将复杂的视觉数据转化为有信息价值的表示方面起着关键作用。
尽管二进制表示学习越来越受欢迎,但由于其高度压缩和离散的性质,它也面临着重大挑战。不过,它在机器学习和计算机科学等多个领域正逐渐受到关注。与传统的实值表示学习方法不同,哈希在快速的汉明空间中提供了一种可扩展且高效的机制,用于以令人满意的准确性保留相似性。
1.1 哈希的目标和原理
哈希的主要目标是在压缩特征的同时保持相似性关系,并要求原始视觉特征和学习到的二进制代码之间进行一致的测量,以确保具有相似语义内容的样本具有相似的二进制表示。
假设可用数据集 $X = [x_1, \cdots, x_n] \in \Re^{d\times n}$ 包含 $n$ 个图像样本,每个图像表示为 $d$ 维特征向量 $x_i \in \Re^d$,对应的标签矩阵为 $Y = [y_1, \cdots, y_n] \in {0, 1}^{c\times n}$,其中 $c$ 是类别数。学习哈希的目标是构建一组哈希函数 ${h_k(x)}_{k = 1}^l \in H$,将原始实值特征从欧几里得空间投影到低维汉明空间 ${-1, 1}^l$,即:
$b_i = H(x_i) = [h_1(F(x_i)), \cdots, h_l(F(x_i))] \in {-1, 1}^l$ <
超级会员免费看
订阅专栏 解锁全文
18万+

被折叠的 条评论
为什么被折叠?



