深度解析DeepID2+之二进制化

本文深入解析DeepID2+论文中的人脸特征向量二进制化过程,探讨了为何可以通过特定统计结果将浮点值向量转换为二进制值向量,并分析了激活状态的重要性。

在看这篇论文时,一开始对二进制化的理解始终感觉不够透彻。看了很多别的关于DeepID2+的博客,都没有看到详细的解释。因此写这个博客,专门解析这一个点。

毕竟是个人的观点,如果大家有更好的解释,欢迎讨论。

论文arxiv链接: Deeply learned face representations are sparse, selective, and robust

论文能这么做主要是通过下面的一个统计结果:


为什么能够通过上面的两个统计结果把浮点值向量转换成二进制值向量呢?

这个统计的来源:
    实验数据量: 46,594条人脸图片数据
    假设人脸的特征表示向量为$y$, 则$y$的大小为(512, 1)

    

    上图中V表示激活状态, X表示抑制状态
    则Figure 7中左边的统计来源于最后一列紫色向量, 右边的统计来源于最后一行紫色向量


    这两个统计图能够反应出来的意义:

        1.左边的统计图告诉我们大多数的人脸特征向量都是非常稀疏的;
        2.右边的统计图告诉我们不同的人脸图像所激活的神经元也不同,可以这样来理解: 假设大多数人脸所激活的神经元相同的话,则很多神经元所激活的图片数量都比较接近,那么右边统计应该类似正太分布,而事实却有点类似均匀分布。


    通过以上的分析,论文得出这样的结论: 激活态比激活值更重要,因此可以将浮点数按照给定的阈值转为二进制值,且实验表明,二进制值的特征向量只比浮点值的特征向量精度低1%。


    原文的Introduction部分提到: each neuron is activated on roughly half of the face images. Such sparsity distributions can maximize the discriminative power of the deep net as well as the distance between images. Different identities have different subsets of neurons activated. Two images of the same identity have similar activation patterns. This motivates us to binarize the neural responses in the top hidden layer and use the binary code for recognition.

    但是原文在第5部分进行详细分析的时候,似乎是通过两个统计图的均值得到那两个结论。如果是这样的话,原论文想法应该错了:

        左边的统计图,如果是类似均匀分布,均值和论文一样的话,不能够得到稀疏这个结论。

        右边的统计图,如果是类似正太分布,均值还是和论文中说的一样的话,是不能说明"for each neuron, there are approximately half of the images on which it is activated"。


本课程适合具有一定深度学习基础,希望发展为深度学习之计算机视觉方向的算法工程师和研发人员的同学们。基于深度学习的计算机视觉是目前人工智能最活跃的领域,应用非常广泛,如人脸识别和无人驾驶中的机器视觉等。该领域的发展日新月异,网络模型和算法层出不穷。如何快速入门并达到可以从事研发的高度对新手和中级水平的学生而言面临不少的挑战。精心准备的本课程希望帮助大家尽快掌握基于深度学习的计算机视觉的基本原理、核心算法和当前的领先技术,从而有望成为深度学习之计算机视觉方向的算法工程师和研发人员。本课程系统全面地讲述基于深度学习的计算机视觉技术的原理并进行项目实践。课程涵盖计算机视觉的七大任务,包括图像分类、目标检测、图像分割(语义分割、实例分割、全景分割)、人脸识别、图像描述、图像检索、图像生成(利用生成对抗网络)。本课程注重原理和实践相结合,逐篇深入解读经典和前沿论文70余篇,图文并茂破译算法难点, 使用思维导图梳理技术要点。项目实践使用Keras框架(后端为Tensorflow),学员可快速上手。通过本课程的学习,学员可把握基于深度学习的计算机视觉的技术发展脉络,掌握相关技术原理和算法,有助于开展该领域的研究与开发实战工作。另外,深度学习之计算机视觉方向的知识结构及学习建议请参见本人优快云博客。本课程提供课程资料的课件PPT(pdf格式)和项目实践代码,方便学员学习和复习。本课程分为上下两部分,其中上部包含课程的前五章(课程介绍、深度学习基础、图像分类、目标检测、图像分割),下部包含课程的后四章(人脸识别、图像描述、图像检索、图像生成)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值