Loss function的比较
这里,δ(g(xn)≠y^n)δ(g(xn)≠y^n)不可微分,因此采用l(f(xn),y^n)l(f(xn),y^n)代替。因此可以最小化该函数即可。
采用square loss,对于函数y^nf(x)y^nf(x),其中y^n=1 or −1y^n=1 or −1则可以规定l(f(xn),(^y)n)=(y^nf(x)−1)2l(f(xn),(^y)n)=(y^nf(x)−1)2,最终可以转换为当y^n=1y^n=1,则f(x)需要更好地接近1;当y^n=−1y^n=−1,则f(x)需要更好地接近-1。但是此处会造成在横坐标很大时,会造成损失函数较大,这会造成错误。
较优的loss function是采用sigmoid+cross entropy,则最后的损失函数如下:

而Hinge loss的定义如下,则当y^n=1y^n=1,对应的f(x)>1;而当y^n=11y^n=11,对应的f(x)<-1。
Linear SVM
对于线性SVM,f(x)定义如下,当f(x)>0,则属于一类;反之,属于另外一类。Loss Function则定义如下,采用Hinge loss,同时还会加入正则项。可以证明,最后得到的损失函数L(f)L(f)是一个凸函数,因此可以使用GD方法。注意,该函数在某些部分不可微分,
对于Linear SVM,采用GD进行训练,如下图所示,与RELU和MAXOUT情况类似,根据输出的情况判断更新的情况。
通常的linear SVM版本如下,可以使用充分不必要条件将最大值函数进行转化,其中ϵnϵn为slack variable。当需要最小化ϵnϵn,则二者相等的约束关系。这是一个Quadratic programming problem(二次规划问题)。
Kernel method
对于更新后的w,一般是输入数据点的线性组合。当初始化w=0,则下图中的α∗nαn∗是前述的cn(w)cn(w),而该值很多是0,因此权重矩阵W为sparse,值不为0的点为support vectors。
进一步地,这里w为一个vector,而该列向量可以表示为下图公式,也就是存在一个X,使得X和alpha的乘积为权重向量w。这里得到的kernel为向量x乘以固定的x。
对于优化函数L,可以发现,只需要知道kernel function,也就是需要知道向量x和一个新向量z的内积,就可以进行优化。这称为kernel trick。
Kernel trick的具体如下图所示,也就是说kernel的求解可以拆为两个向量函数的内积。包含了平方的kernel、RBF kernel,sigmoid kernel。
当使用sigmoid kernel,可以想象成为只有一个hidden layer的网络,支持向量的个数就是神经元的个数。