因为KCF算法和CSK基本一样,因此关于KCF的笔记仅记录从section 4 开始的公式推导和理解。
为了表述清楚,本文所有小写加粗符号表示列向量,小写不加粗表示元素或参量,大写符号表示矩阵。
4 Building blocks
4.1 Linear regression
通过岭回归(ridge regression)或支持向量机(SVM)
min w ∑ i n ( f ( x i ) − y i ) 2 + λ ∥ w ∥ 2 \min_{\mathbf{w}}\sum_{i}^{n}(f(\mathbf{x}_{i})-y_{i})^2+\lambda\| \mathbf{w} \|^2 wmini∑n(f(xi)−yi)2+λ∥w∥2
分类器 f ( x i ) = w T x i f(\mathbf{x}_{i})=\mathbf{w}^T\mathbf{x}_{i} f(xi)=wTxi
所以上式 = min w ∑ i n ( w T x i − y i ) 2 + λ ∥ w ∥ 2 = min w ∥ X w − y ∥ 2 + λ ∥ w ∥ 2 = ( X w − y ) T ( X w − y ) + λ w T w \begin{aligned} &=\min_{\mathbf{w}}\sum_{i}^{n}(\mathbf{w}^T\mathbf{x}_{i}-y_{i})^2+\lambda\| \mathbf{w} \|^2\\ &=\min_{\mathbf{w}}\|X\mathbf{w}-\mathbf{y}\|^2+\lambda\| \mathbf{w} \|^2\\ &=(X\mathbf{w}-\mathbf{y})^T(X\mathbf{w}-\mathbf{y})+\lambda\mathbf{w}^T\mathbf{w}\\ \end{aligned} =wmini∑n(wTxi−yi)2+λ∥w∥2=wmin∥Xw−y∥2+λ∥w∥2=(Xw−y)T(Xw−y)+λwTw
接下来是矩阵的求导,这里是分子布局(numerater layout)的标量/向量情况
∂ [ . . . ] ∂ w = 2 ( X w − y ) T ∂ ∂ w ( X w − y ) + 2 λ w T = 2 ( X w − y ) T ∂ ∂ w ( X w ) + 2 λ w T = 2 ( X w − y ) T X + 2 λ w T \begin{aligned} \frac{\partial[...] }{\partial \mathbf{w}} &=2(X\mathbf{w}-\mathbf{y})^T \frac{\partial}{\partial \mathbf{w}}(X\mathbf{w}-\mathbf{y}) +2\lambda \mathbf{w}^T\\ &=2(X\mathbf{w}-\mathbf{y})^T \frac{\partial}{\partial \mathbf{w}}(X\mathbf{w}) +2\lambda \mathbf{w}^T\\ &=2(X\mathbf{w}-\mathbf{y})^T X +2\lambda \mathbf{w}^T \end{aligned} ∂w∂[...]=2(Xw−y)T∂w∂(Xw−y)+2λwT=2(Xw−y)T∂w∂(Xw)+2λwT=2(Xw−y)TX+2λwT
令 ∂ [ . . . ] ∂ w = 0 \frac{\partial[...] }{\partial \mathbf{w}}=0 ∂w∂[...]=0,有
w T X T X − y T X + λ w T = 0 w T ( X T X + λ I ) = y T X w T = ( X X T + λ I ) − 1 y T X w = ( X X T + λ I ) − 1 X T y \begin{aligned} \mathbf{w}^TX^TX-\mathbf{y}^TX+\lambda \mathbf{w}^T=0\\ \mathbf{w}^T(X^TX+\lambda I)=\mathbf{y}^TX\\ \mathbf{w}^T=(XX^T+\lambda I)^{-1}\mathbf{y}^TX\\ \mathbf{w}=(XX^T+\lambda I)^{-1}X^T\mathbf{y} \end{aligned} wTXTX−yTX+λwT=0wT(XTX+λI)=yTXwT=(XXT+λI)−1yTXw=(XXT+λI)−1XTy
因为后续会变换到傅里叶域,所以将 X T X^T XT处理为 ( X ∗ ) T (X^*)^T (X∗)T,记为 X H X^H XH,所以 w = ( X X H + λ I ) − 1 X H y \mathbf{w}=(XX^H+\lambda I)^{-1}X^H\mathbf{y} w=(XXH+λI)−1XH