0 复习
0.1 矩阵论
0.1.1 矩阵的逆
- 只有方阵才存在逆矩阵
- 不存在逆矩阵的矩阵称为奇异矩阵
- 检查特征量中是否存在能被其他特征量表示的特征,有则删去
- 样本数若少于特征量则不可逆,可用正则化解决
0.1.2 向量内积
0.1.3 正定矩阵与半正定矩阵
正定矩阵:给定一大小维n×nn\times nn×n的实对称矩阵A,若对于任意长度为n的非零向量x,有XTAX>0X^TAX>0XTAX>0恒成立,则矩阵A是一个正定矩阵
半正定矩阵:给定一大小维n×nn\times nn×n的实对称矩阵A,若对于任意长度为n的非零向量x,有XTAX≥0X^TAX\ge0XTAX≥0恒成立,则矩阵A是一个半正定矩阵
0.1.4 协方差矩阵∑\sum∑
设X=(X1,X2,...,XN)TX=(X_1,X_2,...,X_N)^TX=(X1,X2,...,XN)T为n维随机变量,称矩阵
(0.1)C=(cij)m×n(c11c12...c1nc21c22...c2n⋮⋮⋮cn1cn2...cnn)
C=(c_{ij})_{m\times n}\begin{pmatrix} c_{11} & c_{12} & ... & c_{1n} \\ c_{21} & c_{22} & ... & c_{2n} \\ \vdots & \vdots && \vdots \\ c_{n1} & c_{n2} & ... & c_{nn} \end{pmatrix}\tag{0.1}
C=(cij)m×n⎝⎜⎜⎜⎛c11c21⋮cn1c12c22⋮cn2.........c1nc2n⋮cnn⎠⎟⎟⎟⎞(0.1)
cij=Cov(Xi,Xj)=E[Xi−E(Xi)][Xj−E(Xj)]c_{ij}=Cov(X_i,X_j)=E[X_i-E(X_i)][X_j-E(X_j)]cij=Cov(Xi,Xj)=E[Xi−E(Xi)][Xj−E(Xj)]
- 性质
-
作为实对称矩阵,可以正交对角化,即存在正交矩阵U,使得UT∑U=ΛU^T\sum U=\LambdaUT∑U=Λ
-
作为半正定矩阵,可以进行Cholesky分解,即∑=UTΛU\sum=U^T\Lambda U∑=UTΛU,其中U是上三角阵,Λ\LambdaΛ是对角线元素都非负的对角矩阵
∑=UTΛU=[UTΛ1/2][Λ1/2U]=[Λ1/2U]T[Λ1/2U]\sum=U^T\Lambda U=[U^T\Lambda^{1/2}][\Lambda^{1/2}U]=[\Lambda^{1/2}U]^T[\Lambda^{1/2}U]∑=UTΛU=[UTΛ1/2][Λ1/2U]=[Λ1/2U]T[Λ1/2U]
这样一来,矩阵∑=CTC\sum=C^TC∑=CTC,其中C=Λ1/2UC=\Lambda^{1/2}UC=Λ1/2U
0.1.5 特征值与特征向量
(0 .2)Aα=λα A\alpha=\lambda\alpha\tag{0 .2} Aα=λα(0 .2)
左边用矩阵A将向量α\alphaα做了一个转换,右边将向量α\alphaα拉伸了λ\lambdaλ倍
说明A对向量α\alphaα变换后,长度拉伸λ\lambdaλ倍,方向不变。
并不是所有的向量都可以被A通过变换拉伸而方向不变,能够被A拉伸且保持方向不变的向量就是A的特征向量,拉伸的倍数就是特征值
0.1.6 奇异值分解(SVD)
设矩阵A为m×nm\times nm×n矩阵,则A的SVD为:A=U∑VTA=U\sum V^TA=U∑VT
其中U是一个m×mm\times mm×m的矩阵;∑\sum∑是一个m×nm\times nm×n的矩阵,除主对角线上的元素外全为0,主对角线上每个元素称为奇异值;V是一个n×nn\times nn×n矩阵;U和V是酉矩阵,即满足UTU=I,VTV=IU^TU=I,V^TV=IUTU=I,VTV=I
0.2 概率论与数理统计
0.2.1 贝叶斯定理
在有限的信息下帮助预测出概率
(0.3)P(A∣B)=P(A)P(B∣A)P(B)
P(A|B)=P(A)\frac{P(B|A)}{P(B)}\tag{0.3}
P(A∣B)=P(A)P(B)P(B∣A)(0.3)
即后验概率=先验概率×可能性函数
- 先验概率P(A):不知道B事件发生的前提下A事件发生的概率
- 可能性函数P(B∣A)P(B)\frac{P(B|A)}{P(B)}P(B)P(B∣A):新信息到来后对先验概率的调整因子
- 后验概率P(A|B):B事件发生后对A事件概率的重新评估
0.2.2 全概率公式
(0.4)P(B)=P(B∣A)P(A)+P(B∣A′)P(A′) P(B)=P(B|A)P(A)+P(B|A')P(A')\tag{0.4} P(B)=P(B∣A)P(A)+P(B∣A′)P(A′)(0.4)
0.2.3 条件独立性
(0.5)P(X,Y∣Z)=P(X∣Z)P(Y∣Z) P(X,Y|Z)=P(X|Z)P(Y|Z)\tag{0.5} P(X,Y∣Z)=P(X∣Z)P(Y∣Z)(0.5)
当Z发生时,X发生与否与Y发生与否是无关的
0.2.4 极大似然估计
根据统计出的事实推断最有可能出现的情况
0.2.5 高斯分布(正态分布)
-
Gaussian (Normal) distribution
X∼N(μ,σ2)X\sim\mathcal{N}(\mu,\sigma^2)X∼N(μ,σ2)
(0.6)p(x;μ,σ2)=12πσexp(−(x−μ)22σ2) p(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})\tag{0.6} p(x;μ,σ2)=2πσ1exp(−2σ2(x−μ)2)(0.6)
曲线中心由均值μ\muμ决定,概率峰值位置等于μ\muμ
曲线宽度由标准差σ\sigmaσ决定,σ\sigmaσ越大,图形越胖越低
μ=1m∑i=1mX(i)\mu=\frac{1}{m}\sum^m_{i=1}X^{(i)}μ=m1∑i=1mX(i) σ2=1m∑i=1m(X(i)−μ)2\sigma^2=\frac{1}{m}\sum^m_{i=1}(X^{(i)}-\mu)^2σ2=m1∑i=1m(X(i)−μ)2