漫步线性代数十五——余弦和投影

本文探讨了向量间的内积、角度与正交性的关系,详细解释了如何计算向量投影及其背后的数学原理,包括施瓦兹不等式的推导和投影矩阵的应用。

满足xTy=0的向量是正交的,现在我们考虑内积不为零的情况,也就是夹角不是直角。我们想把内积和角度以及转置联系起来,回顾之前讲过的转置,将矩阵翻转一下就是它的转置,有点像摊煎饼。

首先不可否认的是:正交情况是最重要的。假设我们想要找出点b到向量a所在直线的距离,那么我们就需要沿着直线找到离点b最近的点p,几何上的含义就是:连接b,p的线(图1)与a垂直。基于这个事实,我们可以找到投影p,虽然a,b不是正交的,但是碰到距离问题我们自动往正交方向去想。


这里写图片描述
图1

当我们遇到的是直线(或者任何子空间S)而不是直线时,同样这样去思考求解,这种问题依然是找出子空间中离b最近的点p,这个点pb在子空间上的投影,从bS引垂线,在子空间的交点处就是p。几何上来说,就是找出点b到子空间S的距离,但是这里有两个疑问:

  1. 这个投影是来自于实际应用吗?
  2. 如果我们知道子空间S的一个基,那么有没有一个公式来表示投影p 吗?

回答是肯定的。准确来说这是最小二乘问题,向量b表示实验或问题的数据,它包含许多误差,所以无法在子空间S中找出解。如果我们试着用S的基向量组合表示b,会发现根本不存在——Ax=b无解。

最小二乘问题选择选择p作为b的最佳替换,毫无疑问这个应用是非常重要的。在经济和统计学中,最小二乘用于回归分析;在地质测量中,美国绘制测量要解决2.5百万个方程,其中未知数有40万个。

当子空间是一条直线时,p的形式很简单那,我们以几种不同的方法将b投影到a上,并且将投影p和内积与角度联系起来。在高维空间的投影也很重要;它对应于有几个参数的最小二乘问题,具体解法会在下一篇文章给出。我们还会看到的,当S的基是正交的时候,投影的形式会变得更加简单。

内积和余弦

现在我们开始讨论内积和余弦,随后大家会看到与内积直接相关的不是角度而是它的余弦。我们先回顾一下二维空间中的三角关系,假设向量a,bx轴的夹角是α,β(图2),长a是三角形OaQ的斜边,所以α的正弦和余弦分别是:

sinα=a2a,cosα=a1a

对于角β,正弦是b2/b,余弦是b1/bθ=βα的余弦如下:

cosθ=cosβcosα+sinβsinα=a1b1+a2b2ab(1)

公式中的分子就是a,b的内积,它给出了aTbcosθ之间的关系:

7、对于任意两个非零向量a,b,他们夹角的余弦值为:

cosθ=aTbab

这个公式满足尺度不变;如果b的长度加倍,那么分子和分母均加倍,余弦值保持不变。另一方面,改变b的符号,cosθ的符号也发生变换。


这里写图片描述
图2

还有一个三角定律可以推出同样的结论,它和三角形边长有关:

ba2=b2+a22bacosθ(2)

θ是直角时,就变成了毕达哥拉斯定理:ba2=b2+a2。对于任何角度θ,表示式ba2都是(ba)T(ba),方程(3)就变成:

bTb2aTb+aTa=bTb+aTa2bacosθ

消去两边的bTb,aTa后,得到和公式(2)等价的形式:aTb=abcosθ。事实上,这个证明了n维的余弦公式,因为这里的角度不限于二维平面Oab

直线上的投影

现在我们想找出投影点p,这个点必须是给定向量a的某个倍数p=x^a,问题就变成计算系数a^。我们知道的几何事实是b到最近点p=x^a的连线垂直于向量a

(ba^)a,aT(ba^=0,x^=aTbaTa)(3)

据此我们可以得出x^和投影p的公式:

8、向量b在直线上(方向和a一致)的投影p=x^a是:

p=x^a=aTbaTaa(4)

据此我们将图1重画成精确的图3。

另外这个形式能导出施瓦兹(Schwarz)不等式,这是数学里非常重要的不等式。它有一个特殊情况,就是算术平均12(x+y) 大于几何平均xy。施瓦兹不等式似乎来自于这样的命题:图3中的e2=bp2是非负的。

baTbaTaa2=bTb2(aTb)2aTa+(aTbaTa)2aTa=(bTb)(aTab)(aTb)2(aTa)0

这个公式说明(bTb)(aTab)(aTb)2,接着我们取它的平方根:

9、所有向量a,b满足施瓦兹不等式,其中|cosθ|1:

|aTb|ab(5)

根据公式(2),aTb,ab的比值就是|cosθ|。因为余弦值的范围是1cosθ1,这也是方程(6)的另一种证明:施瓦兹不等式和|cosθ|1本质上一样。从某种程度上来说,这个证明更容易理解,因为大家都余弦都比较熟悉。另外每个证明在Rn中都满足,但是需要注意,我们是从九计算bp2开始的,当我们引入新的长度和内积时依然需要保持非负。对于不等式|aTb|ab,它跟柯西(Cauchy)也有联系,俄罗斯人将它称作柯西-施瓦兹-布尼亚科夫斯基(Cauchy-Schwarz-Buniakowsky)不等式!数学是上似乎承认布尼亚克夫斯基的贡献。

观察|aTb|ab,当且仅当ba的倍数时等号成立。也就说角度cosθ=0 或者cosθ=180时,余弦等于1或者-1。这时候b和它的映射p相等,b到直线的距离是零。

例1:将b=(1,2,3)投影大通过点a=(1,1,1)的直线上,那么x^,p分别为:

x^=aTbaTa=63=2

投影是p=x^a=(2,2,2)a,b之间的角度是

cosθ=pb=1214cosθ=aTbab=6314

施瓦兹不等式|aTb|ab就是b314,如果我们将6写成36,那么不等式变成3642。可以看出余弦值小于1,因为ba不是平行关系。

秩为1的投影矩阵

b在直线上的投影是p=a(aTb/aTa),也就是公式p=x^a,但是这个写法有点歧义:向量a放在数字x^=aTb/aTa的前面,这个小细节背后是有原因的,在一条线上的投影可以用投影矩阵P实现,用矩阵的形式来表示就能看出端倪了,利用投影矩阵P乘以b得到p的形式我们得到;

p=aaTbaTa,P=aaTaTa(6)

分子是一列乘以一行——得到一个方阵,然后除以一个数aTa 得到投影矩阵。

例2:投影到通过a=(1,1,1)直线的矩阵是

P=aaTaTa=13111[111]=131313131313131313

我们会看到这个矩阵有两个典型的性质:

  1. P是一个对称矩阵。
  2. 它的平方等于它自身:P2=P

P2b就是Pb的投影,因为Pb已经在直线上了,所以P2b=Pb。考虑矩阵P的四个子空间:

列空间由通过a=(1,1,1)的直线组成,零空间由垂直于a的平面组成,它的秩为1,即r=1

每列都是a的倍数,所以Pb=x^a,投影为p=0的向量非常重要,他们满足aTb=0,也就是说他们与a垂直,沿着a方向上的分量为0,位于零空间=垂直平面。

这个例子太完美了,它的零空间垂直于列空间。之前学到过,零空间应该垂直于行空间,所以这里的结论似乎有点失控了。但是因为P是对称的,所以它的行和列空间是一样的。

注解:如果a加倍,投影矩阵aaT/aTa保持不变:

a=222P=112222[222]=131313131313131313

通过a的那条线跟之前一样,这才是投影矩阵真正关心的,如果a是单位长度,那么分母是aTa=1,投影矩阵就是P=aaT

例3:考虑xy平面上θ方向上的投影。这条线通过a=(cosθ,sinθ),矩阵是对称并且P2=P

P=aaTaTa=[cs][cs][cs][cs]=[c2cscss2]

这里的c表示cosθs表示sinθ,分母中c2+s2=1,我们需要强调一下,是投影矩阵P 产生了投影p

为了将b投影到a上,通过乘以投影矩阵P即可:p=Pb

转置

最后我们将内积和AT联系起来,目前为止,AT仅仅是A关于主对角线的反射;A的行变成AT的列,反之亦然。Aij列的元素变成A(j,i)元素:

ATij=(A)ji

对于AT而言还有更深层次的意义,和内积的紧密联系给出了一个全新的并且更加抽象的转置定义:

9、转置AT可以根据以下性质来定义:Axy的内积等于xATy的内积,也就说

(Ax)Ty=xTATy=xT(ATy)(7)

这个定义给我们提供了另一种方法来验证(AB)T=BTAT,两次使用方程(8):

(ABx)Ty=(Bx)T(ATy)=xT(BTATy)

转置使得右边的顺序发生了反转,就像逆中发生的那样(AB)1=B1A1,我们再次提及这两个公式是为了得出一个非凡的组合(A1)T=(AT)1

添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值