吴恩达机器学习入门笔记0-复习

本文深入探讨矩阵理论,包括矩阵逆、正定矩阵、协方差矩阵、特征值与特征向量、奇异值分解等核心概念,同时覆盖概率论与数理统计的基础,如贝叶斯定理、全概率公式、条件独立性、极大似然估计及高斯分布,为理解复杂的数据科学原理提供坚实的数学基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

0 复习

0.1 矩阵论

0.1.1 矩阵的逆
  • 只有方阵才存在逆矩阵
  • 不存在逆矩阵的矩阵称为奇异矩阵
  • 检查特征量中是否存在能被其他特征量表示的特征,有则删去
  • 样本数若少于特征量则不可逆,可用正则化解决
0.1.2 向量内积

[外链图片转存失败(img-s79ObL9E-1568601380446)(E:\Artificial Intelligence Markdown\Machine Learning\pictures\0.1.2 向量内积.png)]

0.1.3 正定矩阵与半正定矩阵

正定矩阵:给定一大小维n×nn\times nn×n的实对称矩阵A,若对于任意长度为n的非零向量x,有XTAX>0X^TAX>0XTAX>0恒成立,则矩阵A是一个正定矩阵

半正定矩阵:给定一大小维n×nn\times nn×n的实对称矩阵A,若对于任意长度为n的非零向量x,有XTAX≥0X^TAX\ge0XTAX0恒成立,则矩阵A是一个半正定矩阵

0.1.4 协方差矩阵∑\sum

X=(X1,X2,...,XN)TX=(X_1,X_2,...,X_N)^TX=(X1,X2,...,XN)T为n维随机变量,称矩阵
(0.1)C=(cij)m×n(c11c12...c1nc21c22...c2n⋮⋮⋮cn1cn2...cnn) C=(c_{ij})_{m\times n}\begin{pmatrix} c_{11} & c_{12} & ... & c_{1n} \\ c_{21} & c_{22} & ... & c_{2n} \\ \vdots & \vdots && \vdots \\ c_{n1} & c_{n2} & ... & c_{nn} \end{pmatrix}\tag{0.1} C=(cij)m×nc11c21cn1c12c22cn2.........c1nc2ncnn(0.1)
cij=Cov(Xi,Xj)=E[Xi−E(Xi)][Xj−E(Xj)]c_{ij}=Cov(X_i,X_j)=E[X_i-E(X_i)][X_j-E(X_j)]cij=Cov(Xi,Xj)=E[XiE(Xi)][XjE(Xj)]

  • 性质
  1. 作为实对称矩阵,可以正交对角化,即存在正交矩阵U,使得UT∑U=ΛU^T\sum U=\LambdaUTU=Λ

  2. 作为半正定矩阵,可以进行Cholesky分解,即∑=UTΛU\sum=U^T\Lambda U=UTΛU,其中U是上三角阵,Λ\LambdaΛ是对角线元素都非负的对角矩阵

    ∑=UTΛU=[UTΛ1/2][Λ1/2U]=[Λ1/2U]T[Λ1/2U]\sum=U^T\Lambda U=[U^T\Lambda^{1/2}][\Lambda^{1/2}U]=[\Lambda^{1/2}U]^T[\Lambda^{1/2}U]=UTΛU=[UTΛ1/2][Λ1/2U]=[Λ1/2U]T[Λ1/2U]

    这样一来,矩阵∑=CTC\sum=C^TC=CTC,其中C=Λ1/2UC=\Lambda^{1/2}UC=Λ1/2U

0.1.5 特征值与特征向量

(0 .2)Aα=λα A\alpha=\lambda\alpha\tag{0 .2} Aα=λα(0 .2)

左边用矩阵A将向量α\alphaα做了一个转换,右边将向量α\alphaα拉伸了λ\lambdaλ

说明A对向量α\alphaα变换后,长度拉伸λ\lambdaλ倍,方向不变。

并不是所有的向量都可以被A通过变换拉伸而方向不变,能够被A拉伸且保持方向不变的向量就是A的特征向量,拉伸的倍数就是特征值

0.1.6 奇异值分解(SVD)

设矩阵A为m×nm\times nm×n矩阵,则A的SVD为:A=U∑VTA=U\sum V^TA=UVT

其中U是一个m×mm\times mm×m的矩阵;∑\sum是一个m×nm\times nm×n的矩阵,除主对角线上的元素外全为0,主对角线上每个元素称为奇异值;V是一个n×nn\times nn×n矩阵;U和V是酉矩阵,即满足UTU=I,VTV=IU^TU=I,V^TV=IUTU=I,VTV=I

0.2 概率论与数理统计

0.2.1 贝叶斯定理

在有限的信息下帮助预测出概率
(0.3)P(A∣B)=P(A)P(B∣A)P(B) P(A|B)=P(A)\frac{P(B|A)}{P(B)}\tag{0.3} P(AB)=P(A)P(B)P(BA)(0.3)
即后验概率=先验概率×可能性函数

  • 先验概率P(A):不知道B事件发生的前提下A事件发生的概率
  • 可能性函数P(B∣A)P(B)\frac{P(B|A)}{P(B)}P(B)P(BA):新信息到来后对先验概率的调整因子
  • 后验概率P(A|B):B事件发生后对A事件概率的重新评估
0.2.2 全概率公式

(0.4)P(B)=P(B∣A)P(A)+P(B∣A′)P(A′) P(B)=P(B|A)P(A)+P(B|A')P(A')\tag{0.4} P(B)=P(BA)P(A)+P(BA)P(A)(0.4)

0.2.3 条件独立性

(0.5)P(X,Y∣Z)=P(X∣Z)P(Y∣Z) P(X,Y|Z)=P(X|Z)P(Y|Z)\tag{0.5} P(X,YZ)=P(XZ)P(YZ)(0.5)

当Z发生时,X发生与否与Y发生与否是无关的

0.2.4 极大似然估计

根据统计出的事实推断最有可能出现的情况

0.2.5 高斯分布(正态分布)
  • Gaussian (Normal) distribution

    X∼N(μ,σ2)X\sim\mathcal{N}(\mu,\sigma^2)XN(μ,σ2)

(0.6)p(x;μ,σ2)=12πσexp(−(x−μ)22σ2) p(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})\tag{0.6} p(x;μ,σ2)=2πσ1exp(2σ2(xμ)2)(0.6)

曲线中心由均值μ\muμ决定,概率峰值位置等于μ\muμ

曲线宽度由标准差σ\sigmaσ决定,σ\sigmaσ越大,图形越胖越低

μ=1m∑i=1mX(i)\mu=\frac{1}{m}\sum^m_{i=1}X^{(i)}μ=m1i=1mX(i) σ2=1m∑i=1m(X(i)−μ)2\sigma^2=\frac{1}{m}\sum^m_{i=1}(X^{(i)}-\mu)^2σ2=m1i=1m(X(i)μ)2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值