第一步线性代数 (二）-优快云博客

本文链接：https://blog.youkuaiyun.com/lc8411/article/details/145414875

人工智能学习

前言

根据吴达恩的课程开始学习，线性代数，微积分，概率统计，机器学习，深度学习，目前主流框架。

第一步线性代数 (二）

向量性质（vector and their properties）

向量由大小和方向组成
$x(x_1 ,x_2,x_3,...,x_n)$
大小的定义：范式一： L1_norm = $x||_1 = |x_1|+|x _2|+|x_3|+...+|x_n|$
范式二： L2_norm = $||x||_2=\sqrt{x_1^2+x_2^2+x_3^2+...+x_n^2}$
没有特定说明，默认使用范式二。

向量得运算（vector operations）

$\vec{x} =(x_1,x_2,x_3,...,x_n) \quad \vec{y} = (y_1,y_2,y_3,...,y_n)$
$\vec{x} +\vec{y}=(x_1+y_1,x_2+y_2,x_3+y_3,...,x_n+y_n)$
$\vec{x} -\vec{y}=(x_1-y_1,x_2-y_2,x_3-y_3,...,x_n-y_n)$

$\lambda\vec{u}=(\lambda x_1,\lambda x_2,\lambda x_3,...,\lambda x_n)$

向量的点积（the dot product）

转置（tranpose）:convert columns to rows。
$\begin{bmatrix} x\\y\\z \end{bmatrix}^T= \begin{bmatrix} x&y&z \end{bmatrix}$
点积
$\begin{bmatrix} x_1&x_2&x_3&...&x_n \end{bmatrix}.\begin{bmatrix} y_1\\y_2\\y_3\\...\\y_n \end{bmatrix}=(x_1\times y_1)+ (x_2\times x_2)+ (x_3\times y_3)+...+(x_n\times y_n)$
<x,y> is another notation for the dot product 尖括号点积的其他表示方法。

点积的几何意义(geometric dot product)
$\sqrt{dot\:product(u,u)}$
在这里插入图片描述
向量u和向量v的点积，等于0连个向量垂直，大于0是锐角，小于0是钝角。

矩阵与向量相乘（Multiplying a matrix by a vector）

矩阵的列数必须等于向量的长度。矩阵的每一行和向量的点乘
在这里插入图片描述

矩阵的线性变换(matrices as linear transformations)

原点都会映射到原点。
基向量

矩阵的乘法（matrix multiplication）

将两个线性变换组合成第三个

在这里插入图片描述

在这里插入图片描述
第一个矩阵的列数必须等于第二个矩阵的行数
结果的行数等于第一个矩阵的行数
结果的列数等与第二个矩阵的列数

单位矩阵（identity matrix）

$\begin{matrix} 1&0&0&0&0 \\0&1&0&0&0 \\0&0&1&0&0 \\0&0&0&1&0 \\0&0&0&0&1 \end{matrix}\times\begin{bmatrix} a \\b \\c \\d \\e \end{bmatrix}= \begin{bmatrix} a\\b\\c\\d\\e\end{bmatrix}$

逆矩阵（matrix inverse）

$M\cdot M^{-1} = identity \,matrix$
在这里插入图片描述
那些矩阵有逆矩阵
non-singular matrix invertible
singular matrix non-invertible
行列式不等于0是有逆矩阵，等于0没有。

线性变换的奇异性和秩（singularity and rank of linear transformations）

在这里插入图片描述

行列式作为面积（determinant as an area）

在这里插入图片描述

乘积的行列式（determinant of a product）

$det(A\cdot B)= det(A)\cdot det(B)$
$det(A^{-1})= \dfrac{1}{det(A)}$
$d e t (I) = 1$

基和张成（bases and span）

基是满足两个条件的向量集合，一这个集合必须张成一个向量空间，二这个集合必须是线性独立的（通过求解方程组来判断是否线性无关,无解代表无关）

特征值和特征向量（enginvalue and enginvector）

利用特征向量和特征值减少运算量。
Av=λv A是矩阵，v是向量，λ是标量。
特征向量是拉伸的方向 eignvectors: direction if stretch
特征值是拉伸的量
特征基是特征向量组成的矩阵，矩阵的每列都是对应每个特征向量。

在这里插入图片描述

计算特征值和特征向量（calculating eigenvalues and eigenvectors）

特征向量和特征值都通过行列式计算，行列式必须是方正。
先利用公式求出λ的值（特征值），再代入Av=λv方程组求解出特征向量。
$det(A-\lambda I) = 0$

在这里插入图片描述
特征向量的数量问题，参考上图。

降维和投影 (dimensionality reduction and projection)

在这里插入图片描述

降维一数据更易管理，二数据可视化，减少维度的情况下尽量保存信息。降维的理念是讲数据点移动到一个更低维度的的向量空间中。
投影最优的向量，提供的方差值最大（best line = most variance）
一般情况想把矩阵A 投影到向量v上，就将A乘以v除以自身的范式2，除以范式2是为了剔除缩放。
$A_p = A \dfrac{v}{||v||_2}$
如果A是r行c列，那么v的长度必须是c,也可以看作c行1列的矩阵。结果Ap的大小r行1列
矩阵A投影到两个向量上等同于投影到两个向量张成的平面上。
$A_p = A [\dfrac{v_1}{||v_1||_2} \dfrac{v_2}{||v_2||_2} ]$
将两个向量除以自身的范式2组的的矩阵看作V那么可以用简单的方程来表示 Ap = AV。

PCA（ Principal Component Analysis）

PCA减少维度的同时最小化信息损失。（降维的同时最大化保留数据分布的投影）
概念方差和协方差
二维坐标下分布的点。（spread 分布）
均值（mean）
$\frac{1}{n} \sum\limits_{i=1}\limits^{n} x_i$
$\frac{1}{n} \sum\limits_{i=1}\limits^{n} y_i$
方差(variance) 数据的分散程度，方差为零表示没有分布，大方差表示数据的分布。
方差的公式： $\frac{1}{n-1}\sum\limits_{i=1}\limits^n(x_i-mean(x))^2$
$\frac{1}{n-1}\sum\limits_{i=1}\limits^n(x_i-\mu)^2$
另一种理解方差的方式是平均平方距离（ the average squared distance from the mean）
协方差（covariance）
$\frac{1}{n-1}\sum\limits_{i=1}\limits^n(x_i-\mu_x)(y_i-\mu_y)$
两个变量之间的方向关系(the direction of the relationship between two variables)
负协方差表示负向趋势，接近零代表平稳趋势或无关系，正协方差表示正向趋势。
在这里插入图片描述

协防差矩阵（convariance matrix）

变量与自身的协方差等于方差 Cov(x,x)=Var(x)
$\: matrix = \left[\begin{matrix} Cov(x,x)&Cov(x,y)\\ Cov(x,y)&Cov(y,y) \end{matrix}\right]$
以矩阵的方式表达协方差矩阵
$\left[\begin{matrix}x_1&y_1\\x_2&y_2\\\vdots&\vdots\\x_n&y_n \end{matrix}\right]\:\:\mu= \left[\begin{matrix}\mu_x&\mu_y\\\mu_x&\mu_y\\\vdots&\vdots\\\mu_x&\mu_y\end{matrix}\right]$
$\frac{1}{n-1}(A-\mu)^T(A-\mu)$
在这里插入图片描述
PCA 步骤。
一找到协方差矩阵C。（每个协方差矩阵都对角线对称）
二找到协方差矩阵的特征值和特征向量。（矩阵对角线对称，特征向量一定正交（垂直））
三最大的特征值对应的特征向量就是要投影的向量。（特征向量在PCA里称为主成分，具有最大特征值的特征向量，始终是将在投影数据时提供最大方差的那个向量）
四投影。
在这里插入图片描述

PCA 数学公式（mathematical formula）

假设有n组5个特征德数据，目的是降维成2个特征。(5 variable ,n observations)
1.创建矩阵(create matrix)
$\left[ \begin{matrix}x_{11}&x_{12}&x_{13}&x_{14}&x_{15}\\x_{21}&x_{22}&x_{23}&x_{24}&x_{25}\\\vdots&\vdots&\vdots&\vdots&\vdots\\ x_{n1}&x_{n2}&x_{n3}&x_{n4}&x_{n5} \end{matrix} \right]$
2.数据中心化（center the data）
$X-\mu= \left[ \begin{matrix}x_{11}-\mu_1&x_{12}-\mu_2&x_{13}-\mu_3&x_{14}-\mu_4&x_{15}-\mu_5\\x_{21}-\mu_1&x_{22}-\mu_2&x_{23}-\mu_3&x_{24}-\mu_4&x_{25}-\mu_5\\\vdots&\vdots&\vdots&\vdots&\vdots\\ x_{n1}-\mu_1&x_{n2}-\mu_2&x_{n3}-\mu_3&x_{n4}-\mu_4&x_{n5}-\mu_5 \end{matrix} \right] \mu 每列的均值$
3.计算协方差矩阵（calculate covariance matrix)
$\frac{1}{n-1}(X-\mu)^T(X-\mu) = \left[ \begin{matrix}\text{Var}(X_1) & \text{Cov}(X_1, X_2) & \text{Cov}(X_1, X_3) & \text{Cov}(X_1, X_4) & \text{Cov}(X_1, X_5) \\ \text{Cov}(X_2, X_1) & \text{Var}(X_2) & \text{Cov}(X_2, X_3) & \text{Cov}(X_2, X_4) & \text{Cov}(X_2, X_5) \\ \text{Cov}(X_3, X_1) & \text{Cov}(X_3, X_2) & \text{Var}(X_3) & \text{Cov}(X_3, X_4) & \text{Cov}(X_3, X_5) \\ \text{Cov}(X_4, X_1) & \text{Cov}(X_4, X_2) & \text{Cov}(X_4, X_3) & \text{Var}(X_4) & \text{Cov}(X_4, X_5) \\ \text{Cov}(X_5, X_1) & \text{Cov}(X_5, X_2) & \text{Cov}(X_5, X_3) & \text{Cov}(X_5, X_4) & \text{Var}(X_5) \end{matrix} \right]$
这段latex代码使用DS生成。
4.计算特征值和特征向量（calculate eigenvalues and eigenvectors）
计算出后按照λ的值从大到小排序，只取前两个特征值和特征向量
5.创建投影矩阵（create projection matrix）
$\left[\dfrac{v_1}{||v_1||_2} \dfrac{v_2}{||v_2||_2} \right]$
6.投影中心数据（project centered data ）
$X_{pca}= (X-\mu)V$
最后通过将中心数据乘以投影矩阵，将数据投影到选择的向量上。