目标函数:用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数。一个工程设计问题 ,常有许多可行的设计方案 ,最优化设计的任务是要找出其中最优的一个方案。评价最优方案的标准应是在设计中能最好地反映该项设计所要追求的某些特定目标。通常 ,这些目标可以表示成设计变量的数学函数 ,这种函数称为目标函数。
softmax:顾名思义,softmax由两个单词组成,其中一个是max。对于max我们都很熟悉,比如有两个变量a,b。如果a>b,则max为a,反之为b。用伪码简单描述一下就是 if a > b return a; else b。
另外一个单词为soft。max存在的一个问题是什么呢?如果将max看成一个分类问题,就是非黑即白,最后的输出是一个确定的变量。更多的时候,我们希望输出的是取到某个分类的概率,或者说,我们希望分值大的那一项被经常取到,而分值较小的那一项也有一定的概率偶尔被取到,所以我们就应用到了soft的概念,即最后的输出是每个分类被取到的概率。
特征点:图像灰度值发生剧烈变化的点或者在图像边缘上曲率较大的点(即两个边缘的交点)。
分类:颜色特征、纹理特征
颜色特征:基于像素点的特征,由于颜色对图像或图像区域的方向、大小等变化不敏感,颜色特征不能很好地捕捉图像中对象的局部特征。颜色直方图是最常用的表达颜色特征的方法,其优点是不受图像旋转和平移变化的影响,进一步借助归一化还可不受图像尺度变化的影响,基缺点是没有表达出颜色空间分布的信息。
纹理特征:描述了图像或图像区域所对应景物的表面性质,不能完全反映出物体的本质属性,所以仅仅利用纹理特征是无法获得高层次图像内容的,纹理特征不是基于像素点的特征,它需要在包含多个像素点的区域中进行统计计算。在模式匹配中,这种区域性的特征具有较大的优越性,不会由于局部的偏差而无法匹配成功。作为一种统计特征,纹理特征常具有旋转不变性,并且对于噪声有较强的抵抗能力。纹理特征不是基于像素点的特征,它需要在包含多个像素点的区域中进行统计计算。在模式匹配中,这种区域性的特征具有较大的优越性,不会由于局部的偏差而无法匹配成功。作为一种统计特征,纹理特征常具有旋转不变性,并且对于噪声有较强的抵抗能力。
非监督型网络:不需要预设置Label,完全通过机器学习得到相关参数。
STN(空间变换网络):显式地允许在网络中对数据进行空间变换操作,这个可微的模块可以插入到现有的卷积架构中,使神经网络能够主动地在空间上转换特征映射,在特征映射本身上有条件,而不需要对优化过程进行额外的训练监督或修改。它对于网络的平移、缩放、旋转和更一般的扭曲具有很好的效果。空间变换器包含三部分 本地网络(Localisation Network)、网格生成器( Grid Genator)和采样器(Sampler)。本地网络是一个用来回归变换参数θ的网络,它的输入是特征图像,然后经过一系列的隐藏网络层(全连接或者卷积网,再加一个回归层)输出空间变换参数。网格生成器(Grid Generator)是依据预测的变换参数来构建一个采样网格,它是一组输入图像中的点经过采样变换后得到的输出。网格生成器其实得到的是一种映射关系。采样器利用采样网格和输入的特征图同时作为输入产生输出,得到了特征图经过变换之后的结果。
ResNet:VGG网络达到19层后再增加层数就开始导致分类性能的下降。所以Resnet网络用常规计算机视觉领域常用residual representation的概念,并进一步将它应用在了CNN模型的构建当中,于是就有了基本的residual learning的block。它通过使用多个有参层来学习输入输出之间的残差表示,而非像一般CNN网络(如Alexnet/VGG等)那样使用有参层来直接尝试学习输入、输出之间的映射。
归一化函数:归一化就是要把需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。归一化是为了后面数据处理的方便,其次是保证程序运行时收敛加快。归一化的具体作用是归纳统一样本的统计分布性。归一化在0-1之间是统计的概率分布,归一化在某个区间上是统计的坐标分布。归一化的目的是使得没有可比性的数据变得具有可比性,同时又保持相比较的两个数据之间的相对关系,如大小关系或是为了作图方便,原来很难在一张图上作出来的图形,归一化后就可以很方便的显示出在图上的相对位置等。
Leaky-ReLU:激活函数分为两类,饱和激活函数和非饱和激活函数,ReLU及其变体为非饱和激活函数,非饱和激活函数”能解决所谓的“梯度消失”问题,且能够加快收敛速度。 ReLU函数代表的的是“修正线性单元”,它是带有卷积图像的输入x的最大函数(x,o)。ReLU函数将矩阵x内所有负值都设为0,其余的值不变。ReLU函数的计算是在卷积之后进行的。Leaky-ReLU是将x内所有负值赋予一个非零斜率。
strided convolutions:通常卷积运算是默认步长为1的,即33的filter同左上角九宫格进行完运算后向右移动一步再次进行卷积运算,但我们现在不是默认步长为1了,而是将步长设为一个可调节的参数s,当s=2时,每次做完一次卷积运算,filter就向右或向下移动两步,所以就会有上图中的结果,这样做完卷积运算,我们会得到一个33的图片,而左图中深蓝色部分表示在整个过程中使用两次的像素值,其他部分均使用一次,可见加入步长这一参数影响后,在不加padding的情况下,其实损失了更多图片的边缘信息。
pixel shuffling:正常情况下卷积会使特征图的宽和高变小,而通过pixel shuffling则可以使特征图的宽和高变大即增大分辨率,当步长stride=小于1时,可以时feature map的宽和高变大。
Softargmax:softmax是一种指数归一化函数、argmax是寻找参数最大值的索引,但是该过程不可导,而Softargmax是用softmax函数完成argmax的功能,且过程是可导的。
亚像素精度:图像处理过程中,提高检测方法的精度一般有两种方式。一种是提高图像系统的光学放大倍数和CCD相机的分辨率能力;另一种是引入亚像素细分技术来弥补硬件的不足以提高图像系统的分辨率。如使用亚像素细分技术将精度提到到0.01像素,就相当于提高了100倍的图像系统分辨率。
Back-propagating过程:backpropagation的精髓就在于chain rule。同时利用神经网络的结构,使得gradient descent(梯度下降法)的过程就如同反向的神经网络一般。而gradient descent的过程就是最小化一个损失函数的过程。
L2-范数归一化:L2范数归一化处理操作是对向量X的每个维度数据x1, x2, …, xn都除以得到一个新向量。
若向量A=(2,3,6),易得向量X的范数为
L2范数归一化的优点是经过L2范数归一化后,一组向量的欧式距离和它们的余弦相似度可以等价。