motivation:
a在车辆的不同视图中的视觉模式的变化远大于人的视觉模式.
b车辆的分类网络不仅学习到了模型的颜色,类别信息,还学习到了相应的视点特征。采用一个生成网络,通过输入视图的固有特征以及预期视点的特征和噪声矢量将这三个特征concat一起,通过相对应的真实视角来学习同一辆车的目标视图。如果有生成网络那么就有相应的判别网络,Discriminative Net将真实图像与合成样本区分开来,并通过属性label来同时保持生成的图像具有正确的车辆属性。来自交叉视图对数据的推断的车辆图像通过学习距离度量有助于re-ID的表现。
c对于输入的车辆产生不同视角的图像。
车辆重识别中一个难点:最小化同一车辆的侧视图和前视图之间的距离,并且在前视图中让两个类似车辆的距离尽量远离,这将使模型训练而难以得到正确和收敛的损失。但是或许把相同id的多个视角特征concat在一起或许可以让训练具有区分力的同时让训练变的更加容易。
XVGAN:

输入cameraA的一个视角的车辆图像,经过四个卷积层以及两个全连接层,每层后都经过Leakey-ReLU函数,接着通过多属性分类,分出256维作为属性向量Xattr,和视角分类,得到128为视角向量Xvp。这样做希望的是视角信息在属性向量中较弱,而在视角向量中被加强。所有车辆的视角被粗糙的分为五类,在训练分类网时,视点分类的loss可以快速且很好地收敛。 因此,我们可以通过k均值聚类从所有训练数据中轻松学习五个视点的特征聚类,并在每个聚类的中心计算特征。聚类好的视点特征就可以作为产生视点图像B,cameraB视角图像的条件。
再来看Generative Net ,G作为条件生成器任务是将,属性特征向量,随机噪声向量Z和目标视角中心视点特征向量,concat在一起后,生成属性,id,颜色不变的目标视角。concat在一起后的向量是512维经过,一层全连接层(为了让这三个向量更好的融合)四个反卷积层,产生视角B的合成图像,然后与真实的视角B图像共同输入Discriminative Net/Matching of image and attributes,DN的网络结构与CN的结构相同,为了让属性和原始的输入图片相同,视角与视角B的相同会使用一个multi-label classfication.与此同时为了更好的优化G和D,会在卷积层达到8*8的时候将CN得到的Xtta和视角B的中心特征XcvpB在深度上复制过来,一起经过1*1卷积就相当于全连接了。用下面的loss函数

最低0.47元/天 解锁文章
2466

被折叠的 条评论
为什么被折叠?



