矩阵再理解

最新推荐文章于 2022-12-06 07:58:54 发布

原创最新推荐文章于 2022-12-06 07:58:54 发布 · 1.3k 阅读

4 ·

CC 4.0 BY-SA版权

机器学习同时被 2 个专栏收录

18 篇文章

订阅专栏

线性代数

8 篇文章

订阅专栏

矩阵是线性变换的表示。线性变换就是将线性空间中的向量变换为另一个向量，并且变换对加法和标量乘法封闭。先假设有一个线性空间，有一个在该空间上的线性变换T，有一组基 $\alpha =(\alpha_{1},\alpha_{2},...,\alpha_{n})$ ，那么对于该线性变换T，我们只要确定了T对基向量的映射关系，就相当于确定了所有向量的变换，也即确定了，在这个基上，整个的线性变换T的表示。现假设T在基上有如下的映射关系：

$T(\alpha_{1})=a_{1,1}\alpha_{1}+...+a_{1,n}\alpha_{n}=(a_{1,1},...,a_{1,n})(\alpha_{1},...,\alpha_{n})^{'}$

$T(\alpha_{2})=(a_{2,1},...,a_{2,n})(\alpha_{1},...,\alpha_{n})^{'}.\ ...$

$T(\alpha_{n})=(a_{n,1},...,a_{n,n})(\alpha_{1},...,\alpha_{n})^{'}$

令：

$A=\begin{pmatrix} a_{1,1} & ... & a_{1,n}\\ \vdots &... &\vdots \\ a_{n,1}& ... & a_{n,n} \end{pmatrix}$

则:

$T(X)=T((\alpha_{1},...,\alpha_{n})(x_{1},...,x_{n})^{'})=(\alpha_{1},...,\alpha_{n})AX$

因此，由T在基上的映射关系构成的矩阵A就可以完全的表示线性变化T在基 $\alpha$ 上的所有变换。所以我们可以说，矩阵是线性变换的表示。

由上述推导可以看到，线性变换T对应的矩阵是跟基的选取有关的，如果我们换一组基，那么同一个线性变换对应的矩阵会发生改变，因此，当我们说一个矩阵表示一个线性变换时，一定要知道对应的基是什么，只是一般在没有明确说明的情况下，默认的基为标准正交基。

既然线性变换的矩阵表示和基有关，那么对于一个线性变换，我们想找到一组基，使得对应的矩阵足够简单，这样会有利于计算和分析。这里足够简单的矩阵就是对角阵。因此，线性代数中，一个很核心的问题就是判断某个线性变换是否存在这样的对角阵，以及怎么找到这个足够简单的矩阵。

由于通常情况下，一个线性变换是通过标准正交基下的矩阵定义或者给出的，所以我们要找到该线性变换对应的对角阵，就需要知道同一个线性变换在不同基下的矩阵有什么样的关系。

现假设线性变换T在基 $\alpha$ 下的矩阵为A，现有另外一组基 $\beta$ ，且基 $\alpha$ 到基 $\beta$ 的过渡矩阵为P，即

$(\beta_{1},...,\beta_{n})=(\alpha_{1},...,\alpha_{n})P$ ，那么线性变换T在基 $\beta$ 下对应的矩阵是多少呢？我们要想知道T在基 $\beta$ 下对应的矩阵，就需要知道T对基 $\beta$ 的映射关系，由于我们已知T对基 $\alpha$ 的映射关系和转移矩阵，因此我们可以先将基 $\beta$ 转为基 $\alpha$ 下的表示，然后通过已知的T在基 $\alpha$ 下的映射转而求出T对基 $\beta$ 的映射关系，如下所示：

$T(\beta)=T(\alpha P)=\alpha AP=\beta P^{-1}AP$

求得T在基 $\beta$ 下对应的矩阵为 $P^{-1}AP$ 。所以，同一线性变换在两组不同的基下的矩阵表示有着如上的关系，即另一组基下的矩阵等于过渡矩阵的逆、原基下的矩阵和过渡矩阵三者的矩阵乘积。

因为我们的目的是找到一组基使得矩阵为对角阵，现在我们假设存在一组基，对应的矩阵为对角阵，令该对角阵为 $\Lambda$ ，则有如下的关系：

$p_{i}$

$P^{-1}AP=\Lambda$ ，即

$A P=P \Lambda$ ，即

$A=P\Lambda P^{-1}$

也即

$Ap_{i}=\lambda_{i}p_{i}$ ，其中 $p_{i}$ 为矩阵P第i列， $\lambda_{i}$ 为对角阵第i个值。

如果确实存在这样的对角阵，那么A就可以表示成上面的形式，我们称A是可对角化的。上面的式子中， $\lambda_{i}$ 叫做A的特征值，对应的 $p_{i}$ 叫做A特征值为 $\lambda_{i}$ 的特征向量。我们可以通过A的特征方程求出特征值和特征向量，进而也就求出了矩阵P和对角阵；进一步的，由于P就是过渡矩阵，且知道矩阵A对应的基向量，所以还可以求出对角阵对应的基向量。所以只要给出某个基下的矩阵，且只要是可对角化的，那么我们就可以求出包括对角阵、过渡矩阵以及对角阵对应的基等所有需要的信息。明显的，如果A是在标准正交基下给出的，那么P的列向量就是那组基，使得T在该组基下，矩阵表示为对角阵。

很明显，判断一个矩阵是否可对角化便成了很重要的一个问题。其实通过上面的讲述，我们可以发现，如果A有n个不同的特征值，那么就一定可以保证具有n个线性无关的特征向量，因为不同特征值对应的特征向量是线性无关的，这样我们就可以保证P的可逆性，因为过渡矩阵一定是可逆的，从而也就保证了A是可以对角化的。即使A的特征方程有重根，也就是不同的特征值的个数小于n，那么只要保证重根特征值对应的特征向量空间的维度和重根数相等即可，因为这样也可以保证过渡矩阵的可逆性。有些矩阵的特征方程可能在实数域内并没有所有特征根的解，那么其在实数域内就是不可对角化的，但是在复数域内可能可以对角化。

大多数情况下，我们比较关注实数域内是否可以对角化，因为这样比较有现实意义；一些特殊的矩阵，比如实对称阵，就一定可对角化，因为其特征值都是实数，且线性无关的特征向量个数为n；同时，实对称阵不同特征值对应的特征向量之间一定是正交的，这个从对称性和特征向量的定义很容易可以通过简单的形式转化推出。实对称阵在现实应用中比较常见，比如协方差矩阵就是对称阵，因此，关于实对称阵的这些性质和特点是很有分析和应用价值的，比如在主成分分析PCA中的应用。