主要内容
- 标准正交基
- 正交矩阵
- 施密特正交化法
正文
标准正交基
先从字面意义上解读一下,然后再给出几个示例。正交意味着垂直,所以正交基就是说这一个基中的所有向量都是垂直的。而标准意味着,这组基中的向量都是单位向量,长度都为1。所以标准正交基实际上就是一个标准正交向量组。例如:[100][010][001]\begin{bmatrix}1\\0\\0\end{bmatrix}\begin{bmatrix}0\\1\\0\end{bmatrix}\begin{bmatrix}0\\0\\1\end{bmatrix}⎣⎡100⎦⎤⎣⎡010⎦⎤⎣⎡001⎦⎤ [cosθsinθ][−sinθcosθ]\begin{bmatrix}cos\theta\\sin\theta\end{bmatrix}\begin{bmatrix}-sin\theta\\cos\theta\end{bmatrix}[cosθsinθ][−sinθcosθ] 使用数学公式表达这个定义为:qiTqj={0ifi≠j1ifi=jq^T_iq_j=\begin{cases}0\qquad if&i\ne j \\1\qquad if&i=j\end{cases}qiTqj={0if1ifi̸=ji=j
正交矩阵
实际上正交矩阵是一个简称,它的全称是标准正交方阵,它要求矩阵不仅是标准正交矩阵还得是方阵。
像上面的那个例子,我们将三个标准正交向量也就是一个标准正交向量组放到一个矩阵中,在这个矩阵中,每两列都是正交的,并且每列的长度都是111,该矩阵显然是一个方阵,所以这个矩阵就是一个正交矩阵。如下:[100010001]\begin{bmatrix}1&0&0\\0&1&0\\0&0&1\end{bmatrix}⎣⎡100010001⎦⎤现在我们将这个矩阵记为QQQ,他是由一组标准正交基qqq组成的:Q=[::q1qn::]Q=\begin{bmatrix}:&&:\\q_1&&q_n\\:&&:\end{bmatrix}Q=⎣⎡:q1::qn:⎦⎤我们可以发现QTQ=IQ^TQ=IQTQ=I。这里就不给出证明了。由Q−1Q=IQ^{-1}Q=IQ−1Q=I,再结合前面的式子我们可以知道Q−1=QTQ^{-1}=Q^TQ−1=QT,这是正交矩阵特有的性质。
作用: 不知道正交矩阵是在研究投影的过程中产生的还是在什么时候产生的,但是它方便了投影上的计算。最重要的地方在于正交矩阵具有一个特殊的性质QTQ=IQ^TQ=IQTQ=I,这个性质对于所有的QQQ都是成立的,而不限制QQQ是否是方阵或者是长方形矩阵。对于Ax=bAx=bAx=b,我们知道,投影矩阵为P=A(ATA)−1ATP=A(A^TA)^{-1}A^TP=A(ATA)−1AT我们通过标准正交化,将AAA化成QQQ之后,再使用这个公式:P=Q(QTQ)−1QT=QQTP=Q(Q^TQ)^{-1}Q^T=QQ^TP=Q(QTQ)−1QT=QQT也就是说,正交矩阵简化了这个运算,使用正交矩阵计算投影矩阵的时候,我们会发现不用再求逆,而求逆是非常耗费计算量的,所以它应该是大大的减少了计算量。对于方阵而言, 我们可以得到QQT=IQQ^T=IQQT=I,即P=IP=IP=I。这是代数上的表示,在几何上分析可以发现:一个正交的方阵,也就是矩阵的所有列都是线性无关的,它的列空间就是整个空间。空间中的某个向量在向列空间上投影时,就是在向整个空间投影,得到的仍然是原来的位置。这就是P=IP=IP=I的原因。x^=(ATA)−1ATb\hat{x}=(A^TA)^{-1}A^Tbx^=(ATA)−1ATb 现在AAA化成了QQQ,所以我们有下面的式子:x^=(QTQ)−1QTb=QTb\hat{x}=(Q^TQ)^{-1}Q^Tb=Q^Tbx^=(QTQ)−1QTb=QTb
施密特正交化法
正交矩阵简化了投影运算,于是如何将AAA转变成QQQ就成了问题,这就要用到Gram-Schmidt正交化法。
先分析一下简单的情况:两个线性无关的向量aaa,bbb,我们想要得到它们的一组标准正交基。之前我们学习过的投影保留列空间中的分量,而扔掉垂直于列空间的分量。相反,这次我们想保留垂直于列空间的分量,因为我们要找的就是垂直。
像这种情况,我们想保留分量BBB,扔掉分量ppp。(这里A=aA=aA=a,因为我们将aaa作为第一个基AAA)B=b−pB=b-pB=b−p而且根据之前的内容,我们可以得p=ATbATAAp=\frac{A^Tb}{A^TA}Ap=ATAATbA,带入到上式中可得:B=b−ATbATAAB=b-\frac{A^Tb}{A^TA}AB=b−ATAATbA至此我们得到了A,BA,BA,B,然后再将他们标准化:q1=A∣∣A∣∣q2=B∣∣B∣∣q_1=\frac{A}{||A||}\qquad q_2=\frac{B}{||B||}q1=∣∣A∣∣Aq2=∣∣B∣∣B Q=[q1q2]Q=\begin{bmatrix}q_1&q_2\end{bmatrix}Q=[q1q2]
然后我们将这种方法扩展到333维的情况,在进一步扩展到高维的情况时,跟这种扩展方法是类似的。有三个线性无关的向量a,b,ca,b,ca,b,c如图:
我们仍然保留aaa做第一个基,类似前面的方法,bbb减去在AAA上的分量,保留垂直分量,做第二个基。B=b−ATbATAAB=b-\frac{A^Tb}{A^TA}AB=b−ATAATbA采用同样的思想,ccc减去在A,BA,BA,B上的分量,保留垂直于它们的分量做第三个基:C=c−ATcATAA−BTcBTBBC=c-\frac{A^Tc}{A^TA}A-\frac{B^Tc}{B^TB}BC=c−ATAATcA−BTBBTcB然后我们再标准化:q1=A∣∣A∣∣q2=B∣∣B∣∣q3=C∣∣C∣∣q_1=\frac{A}{||A||}\qquad q_2=\frac{B}{||B||}\qquad q_3=\frac{C}{||C||}q1=∣∣A∣∣Aq2=∣∣B∣∣Bq3=∣∣C∣∣C最后我们得到正交化矩阵Q=[q1q2q3]Q=\begin{bmatrix}q_1&q_2&q_3\end{bmatrix}Q=[q1q2q3] 实际上,并没有什么特殊的地方,这个正交化的过程就是逐步减去在已有基上的分量的过程,最终保留了垂直于已有基的分量作为新的基。
在矩阵的角度上分析: 消元法的本质在于A=LUA=LUA=LU,即AAA的LULULU分解。这里的正交化法同样也可以写成类似的形式:A=QRA=QRA=QR右乘一个矩阵表示对QQQ进行列的线性组合,也就是说AAA是由它所在的空间中的基线性组合得到的。这是符合我们的常识的。