注:本文为 “孟岩 | 理解矩阵 1 2 3” 相关文章合辑。
如有内容异常,请看原文。
孟岩 | 《理解矩阵》
文 / 孟岩
2006.04
1. 前言
线性代数课程,无论从行列式入手还是直接从矩阵入手,从一开始就充斥着难以理解的内容。例如,在全国一般工科院系教学中应用最广泛的同济版线性代数教材(目前已更新至第四版),开篇即介绍逆序数这一“前无古人,后无来者”的特殊概念,随后利用逆序数给出行列式一个极不直观的定义,紧接着是一些看似繁琐的行列式性质和习题——将某行乘以一个系数加到另一行,再将某列减去另一列,操作虽多,却完全看不出其用途。大多数如我一样资质平庸的学生在此处会感到困惑:连对象本身的概念都模糊不清,就开始进行复杂的推导演练,这未免过于“难以理解”。于是有人开始逃课,更多人开始抄作业。这会导致学习受阻,因为后续内容的发展可用“峰回路转”来形容,紧跟这个难以理解的行列式之后,一个同样难以理解但意义重大的概念登场——矩阵!多年以后我才意识到,当老师用中括号将一组数括起来,不紧不慢地说“这个东西叫做矩阵”时,我的数学生涯开启了一段充满挑战与艰辛的历程。自此之后,在几乎所有与“学问”稍有关联的领域中,矩阵从未缺席。对于我这个未能一次掌握线性代数的人而言,矩阵的频繁出现常常让我陷入困境。长期以来,我在阅读中见到矩阵,便如同阿Q见到假洋鬼子,只能绕道而行。
事实上,我并非特例。一般工科学生初学线性代数,通常都会感到困难,这种情况在国内外皆然。瑞典数学家 Lars Garding 在其名著《Encounter with Mathematics》中提到:“如果不熟悉线性代数的概念,要去学习自然科学,现在看来就和文盲差不多。”然而,“按照现行的国际标准,线性代数是通过公理化来表述的,它是第二代数学模型,……这就带来了教学上的困难。” 事实上,当我们开始学习线性代数时,不知不觉已进入“第二代数学模型”的范畴,这意味着数学的表述方式和抽象性发生了一次全面的跃升。对于从小在“第一代数学模型”(即以实用为导向的具体数学模型)中学习的我们而言,在未被明确告知的情况下经历如此剧烈的范式转变(paradigm shift),感到困难并不奇怪。
大部分工科学生往往是在学习了后续课程(如数值分析、数学规划、矩阵论等)之后,才逐渐理解并熟练运用线性代数。即便如此,不少人即便能熟练以线性代数为工具开展科研和应用工作,对初学者提出的一些看似基础的问题仍无法清晰解答。例如:
- 矩阵究竟是什么? 向量可被视为具有 n 个相互独立性质(维度)的对象的表示,矩阵又是什么呢?若认为矩阵是一组列(行)向量组成的复合向量的展开式,为何这种展开式应用如此广泛?特别是,为何二维展开式如此有用?若矩阵中每个元素又是一个向量,进一步展开为三维立方阵,是否会更有用?
- 矩阵的乘法规则为何如此规定? 为何这种看似特殊的乘法规则能在实践中发挥巨大功效?许多看似无关的问题最终都归结到矩阵乘法,这难道不奇妙吗?矩阵乘法规则背后是否蕴含着世界的某些本质规律?若是,这些本质规律是什么?
- 行列式究竟是什么? 为何有如此特殊的计算规则?行列式与其对应方阵的本质关系是什么?为何只有方阵才有对应的行列式,而一般矩阵没有(这并非愚蠢的问题,若有必要,为 m×n 矩阵定义行列式并非不可行,之所以不做,是因为无此必要,但为何无此必要)?此外,行列式的计算规则与矩阵的其他计算规则看似无直观联系,却在诸多方面决定矩阵的性质,这难道仅是巧合?
- 矩阵为何可以分块计算? 分块计算看似随意,为何可行?
- 对于矩阵转置运算 A T A^T AT,有 ( A B ) T = B T A T (AB)^T = B^T A^T (AB)T=BTAT;对于矩阵求逆运算 A − 1 A^{-1} A−1,有 ( A B ) − 1 = B − 1 A − 1 (AB)^{-1} = B^{-1} A^{-1} (AB)−1=B−1A−1。两种看似无关的运算为何具有类似性质?这仅是巧合吗?
- 为何说 P − 1 A P P^{-1}AP P−1AP 得到的矩阵与 A A A 矩阵“相似”? 这里的“相似”是什么意思?
- 特征值和特征向量的本质是什么? 它们的定义令人惊讶: A x = λ x Ax = \lambda x Ax=λx,一个庞大矩阵的作用竟相当于一个数 λ \lambda λ,确实奇妙。但为何用“特征”甚至“本征”来界定?它们刻画的究竟是什么?
这类问题常常让使用线性代数多年的人感到为难。如同大人面对小孩子的刨根问底,最终只能说“就这样吧,到此为止”,面对这些问题,许多老手最后也只能以“就是这样规定的,接受并记住即可”搪塞。然而,若这些问题无法得到解答,线性代数对我们而言就成了一套粗暴、不讲道理、难以理解的规则集合。我们会觉得自己并非在学习一门学问,而是被强行带入一个陌生的世界,在考试的压力下被迫前行,全然无法领略其中的美妙、和谐与统一。直到多年后,我们虽发现这门学问极具用途,却仍会困惑:为何如此巧合?
我认为,这是线性代数教学中直觉性丧失的后果。上述涉及“如何能”“怎么会”的问题,仅通过纯粹的数学证明无法令提问者满意。例如,即便通过一般证明方法论证了矩阵分块运算可行,也无法消除提问者的疑惑。他们真正困惑的是:矩阵分块运算为何可行?仅是巧合,还是由矩阵的某种本质决定?若是后者,矩阵的这些本质是什么?稍加思考便会发现,这些问题无法单纯依靠数学证明解决。正如我们的教科书,凡事依赖数学证明,最终培养出的学生只能熟练使用工具,却缺乏真正的理解。
自 20 世纪 30 年代法国布尔巴基学派兴起以来,数学的公理化、系统性描述取得了巨大成功,这使我们接受的数学教育在严谨性上大幅提升。然而,数学公理化一个备受争议的副作用是,一般数学教育中直觉性的丧失。数学家们似乎认为直觉性与抽象性相互矛盾,因此毫不犹豫地牺牲前者。但包括我在内的许多人对此表示怀疑,我们不认为直觉性与抽象性一定矛盾,尤其在数学教育和教材中,帮助学生建立直觉有助于他们理解抽象概念,进而理解数学本质。反之,若一味注重形式上的严格性,学生就会像被迫钻火圈的小白鼠,成为枯燥规则的奴隶。
对于线性代数中类似上述的直觉性问题,两年多来我断断续续思考了四、五次,为此阅读了多本国内外线性代数、数值分析、代数及数学通论书籍,其中前苏联名著**《数学:它的内容、方法和意义》**、龚昇教授的《线性代数五讲》、前文提到的《Encounter with Mathematics》(《数学概观》)以及 Thomas A. Garrity 的《数学拾遗》都给了我很大启发。即便如此,我对这一主题的认识仍经历了多次自我否定。例如,以前思考的一些结论曾写在自己的博客中,但现在看来基本都是错误的。因此,我打算将目前的理解完整记录下来,一方面是因为我认为现在的理解较为成熟,可与他人探讨、请教;另一方面,若以后有进一步认识并推翻现有理解,现在的记录也具有意义。
由于内容较多,会分几次慢慢写。不确定是否有时间写完,也可能中断,姑且尝试。
2. 核心概念
今天先谈谈对线性空间和矩阵的几个核心概念的理解。以下内容多基于个人理解,基本不照搬书籍,可能存在错误,希望能被指出。但我希望做到直观,即阐述数学背后的实质问题。
2.1 空间
首先说说空间(space),这是现代数学的核心概念之一。从拓扑空间开始,逐步增加定义,可以形成多种空间。线性空间其实较为初级,若在其中定义范数,就成为赋范线性空间;赋范线性空间满足完备性,则成为巴拿赫空间;在赋范线性空间中定义角度,可得到内积空间;内积空间满足完备性,便得到希尔伯特空间。
总之,空间有多种类型。查看某种空间的数学定义,大致都是“存在一个集合,在该集合上定义某概念,且满足某些性质”,即可称为空间。这看似奇怪,为何用“空间”称呼这类集合?后文会说明,这其实很合理。
我们最熟悉的空间无疑是生活其中的(按牛顿绝对时空观)三维空间,从数学角度看,这是三维欧几里德空间。暂不深入,先看看这一空间的基本特点:
- 由无穷多个位置点组成;(空间的基础)
- 点之间存在相对关系;(空间的基础)
- 可在空间中定义长度、角度;(其他空间未必具备)
- 该空间可容纳运动,此处的运动指从一个点到另一个点的移动(变换),而非微积分意义上的“连续”运动(空间的本质)
上述性质中,最关键的是第 4 条。第 1、2 条仅是空间的基础,并非空间特有性质——讨论数学问题时,通常都需要一个集合,且多数需在集合上定义一些结构(关系),但不能因此称其为空间。第 3 条过于特殊,其他空间无需具备,并非关键性质。只有第 4 条是空间的本质,即容纳运动是空间的本质特征。
认识到这一点,我们可将对三维空间的认识扩展到其他空间。事实上,任何空间都必须容纳和支持符合规则的运动(变换)。某种空间中往往存在对应的变换,例如拓扑空间中有拓扑变换,线性空间中有线性变换,仿射空间中有仿射变换,这些变换其实只是对应空间中允许的运动形式。
因此,只需明确:“空间”是容纳运动的对象集合,而变换规定了对应空间的运动形式。
2.2 线性空间
下面看线性空间。线性空间的定义在任何教材中都能找到,但既然承认线性空间是空间,就必须先解决两个基本问题:
- 空间是对象集合,线性空间作为空间,也是对象集合。那么线性空间是何种对象的集合?或者说,线性空间中的对象有何共同点?
- 线性空间中的运动如何表述?即线性变换如何表示?
先回答第一个问题,答案很直接:线性空间中的任何对象,通过选取基和坐标,都可表达为向量形式。 常见的向量空间无需多言,举两个较特殊的例子:
L1. 最高次项不大于 n 次的多项式的全体构成线性空间,即该空间中的每个对象是一个多项式。若以 x 0 , x 1 , … , x n x^0, x^1, \ldots, x^n x0,x1,…,xn 为基,则任何这样的多项式都可表示为 n+1 维向量,其中每个分量 a i a_i ai 是多项式中 x i − 1 x^{i-1} xi−1 项的系数。需说明的是,基的选取有多种方式,只要所选基线性无关即可(后文会涉及相关概念,此处暂不展开)。
L2. 闭区间 [ a , b ] [a, b] [a,b] 上的 n 阶连续可微函数的全体构成线性空间,即该空间中的每个对象是一个连续函数。根据魏尔斯特拉斯定理,该空间中任何连续函数都可找到最高次项不大于 n 的多项式函数,使其与该连续函数的差为 0(即完全相等),由此可将问题归结为 L1,此处不再赘述。
因此,向量的作用强大,只要找到合适的基,向量可表示线性空间中的任何对象。这其中蕴含深意:向量表面是一列数,但因其有序性,除数本身的信息外,每个数的对应位置还可携带额外信息。程序设计中数组虽简单却威力无穷,根本原因正在于此(此处不展开讨论)。
2.3 线性变换
下面回答第二个问题,这涉及线性代数的一个根本问题。
线性空间中的运动称为线性变换,即从线性空间中的一个点到另一个点的移动可通过线性变换实现。那么,线性变换如何表示?有趣的是,在线性空间中选定一组基后,不仅可用向量描述空间中的任何对象,还可用矩阵描述该空间中的任何运动(变换)。使某个对象发生对应运动的方法,是用代表该运动的矩阵乘以代表该对象的向量。
简而言之,在线性空间中选定基后,向量刻画对象,矩阵刻画对象的运动,矩阵与向量的乘法实现运动的施加。
是的,矩阵的本质是对运动的描述。若有人问矩阵是什么,可明确回答:矩阵的本质是运动的描述。(chensh,说的就是你!)
但向量本身也可看作 n×1 矩阵,这很奇妙——一个空间中的对象和运动竟可用类似方式表示。这是巧合吗?若真是巧合,那也是幸运的巧合!线性代数中许多奇妙性质都与此直接相关。
或许有数学系的读者会提出质疑,因为“运动”在数学和物理中常与微积分关联。学习微积分时,常有人说:初等数学研究常量、静态,高等数学研究变量、运动。这句话广为流传,但真正理解其含义的人并不多。简言之,在人类经验中,运动是连续过程——从 A 点到 B 点,即便光速也需时间逐点经过路径,这带来连续性概念。而**“连续”若不定义极限则无法解释**。古希腊数学发达却缺乏极限观念,因此无法解释运动,被芝诺悖论(飞箭不动、阿喀琉斯追不上乌龟等)困扰。本文不讨论微积分,感兴趣的读者可阅读齐民友教授的《重温微积分》,该书开头部分解释了“高等数学是研究运动的数学”的道理。
但本文中“运动”并非微积分中的连续运动,而是瞬间发生的变化。例如,某时刻在 A 点,经“运动”瞬间“跃迁”到 B 点,无需经过 A、B 间的任何点。这种“运动”或“跃迁”虽违反日常经验,但了解量子物理的人知道,量子(如电子)在不同能级轨道间的跳跃就是瞬间发生的,存在这种跃迁行为。因此,自然界中存在此类运动现象,只是宏观上无法观察。但“运动”一词易产生歧义,更准确的表述是“跃迁”,即**“矩阵是线性空间里跃迁的描述”**。
但这种说法过于物理(具体),不够数学(抽象),因此最终采用数学术语——变换来描述,即变换是空间中从一个点(元素/对象)到另一个点(元素/对象)的跃迁。例如,拓扑变换是拓扑空间中的跃迁,仿射变换是仿射空间中的跃迁。顺便一提,仿射空间与向量空间密切相关。计算机图形学中,描述三维对象虽只需三维向量,但所有图形变换矩阵都是 4×4 的。许多教材称“为使用方便”,这其实是搪塞。真正原因是,计算机图形学中的图形变换发生在仿射空间而非向量空间。向量空间中,向量平行移动后仍为同一向量;但现实中,等长的平行线段不能视为同一对象,因此计算机图形学的空间是仿射空间,而仿射变换的矩阵表示为 4×4(感兴趣的读者可参考《计算机图形学——几何工具算法详解》)。
理解“变换”后,矩阵的定义可表述为:“矩阵是线性空间里的变换的描述。”
教材中通常说:线性空间 V 中的线性变换 T,选定一组基后可表示为矩阵。因此需明确:什么是线性变换?什么是基?什么是选定一组基?线性变换的定义很简单:若存在变换 T,对线性空间 V 中任意两个不同对象 x、y 及任意实数 a、b,有 T ( a x + b y ) = a T ( x ) + b T ( y ) T(ax + by) = aT(x) + bT(y) T(ax+by)=aT(x)+bT(y),则称 T 为线性变换。
仅看定义难以直观理解线性变换的本质。如前所述,变换是空间中点的跃迁,而线性变换是从线性空间 V 的某点到另一个线性空间 W 的某点的运动。这意味着,点不仅可变换到同一线性空间的另一点,还可变换到另一线性空间的另一点。只要变换前后的对象都属于线性空间,该变换就一定是线性变换,且可用非奇异矩阵描述;反之,用非奇异矩阵描述的变换也一定是线性变换。有人可能会问:为何强调非奇异矩阵?非奇异仅对方阵有意义,非方阵的情况如何?这涉及线性变换的映射性质、核与像等概念,较为复杂(若有时间后续补充)。本文仅讨论最常用、最有用的变换——同一线性空间内的线性变换。即下文所述矩阵(除非特别说明)均为方阵,且是非奇异方阵。学习学问的关键是把握主干,迅速建立整体概念,不必一开始就纠结于细枝末节和特殊情况,以免自乱阵脚。
2.4 基和坐标
接着讨论:什么是基?后文会详细展开,此处可将基视为线性空间中的坐标系。注意是“坐标系”而非“坐标值”,二者是对立统一的。因此,“选定一组基”即在线性空间中选定一个坐标系。
综上,矩阵的完整定义为:“矩阵是线性空间中的线性变换的一个描述。在一个线性空间中,选定一组基后,任何线性变换都可用一个确定的矩阵描述。”
理解这句话的关键是区分“线性变换”与“线性变换的一个描述”——前者是对象本身,后者是对对象的表述。类似面向对象编程中,一个对象可有多个引用(不同名称),但均指向同一对象。再举一个通俗的例子:
若要给一头猪拍照,选定相机镜头位置后可得到一张照片。这张照片是猪的一个描述(片面的),换一个镜头位置会得到另一张照片(也是该猪的片面描述)。所有照片都是同一头猪的描述,但都不是猪本身。
同样,对一个线性变换,选定一组基后可得到一个描述它的矩阵;换一组基,会得到另一个矩阵。这些矩阵都是同一线性变换的描述,但都不是线性变换本身。
2.5 相似矩阵
若给两张猪的照片,如何判断它们是同一头猪?同理,给两个矩阵,如何判断它们描述的是同一线性变换?若为同一线性变换的不同矩阵描述(因选定基/坐标系不同),则它们是“本家兄弟”,需找到判断方法。
同一线性变换的矩阵具有如下性质:若矩阵 A 与 B 是同一线性变换的不同描述(因基不同),则存在非奇异矩阵 P P P,使得 A = P − 1 B P A = P^{-1}BP A=P−1BP。
熟悉线性代数的读者会发现,这正是相似矩阵的定义。没错,相似矩阵是同一线性变换的不同描述矩阵。按此定义,同一头猪的不同角度照片可称为“相似照片”(虽通俗但易懂)。
上式中的矩阵 P 是 A 所基于的基与 B 所基于的基之间的变换关系。这一结论可用直观方法证明(非教材中的形式化证明),若有时间后续补充。
这一发现至关重要:一族相似矩阵都是同一线性变换的描述!难怪相似矩阵如此重要!工科研究生课程(如矩阵论、矩阵分析)中的相似变换(如相似标准型、对角化等)要求变换前后的矩阵相似,正是因为只有这样才能保证它们描述的是同一线性变换。同一线性变换的不同矩阵描述在运算性质上有优劣之分(如同同一头猪的照片有美丑之分),因此矩阵的相似变换可将“丑陋”矩阵转化为“美观”矩阵,且保证二者描述同一线性变换。
至此,矩阵作为线性变换描述的一面已基本说明。但线性代数还有更奇妙的性质:矩阵不仅可描述线性变换,还可描述一组基;作为变换的矩阵,既能将线性空间中的点变换到另一点,也能将线性空间中的坐标系(基)变换到另一坐标系(基)。变换点与变换坐标系的效果异曲同工,线性代数的奥妙正蕴含其中。理解这些,许多定理和规则会变得更清晰、直观。
2.6 向量和矩阵乘法
先总结前文主要结论:
- 存在空间,空间可容纳对象运动;一种空间对应一类对象。
- 线性空间是容纳向量对象运动的空间。
- 运动是瞬时的,也称为变换。
- 矩阵是线性空间中运动(变换)的描述。
- 矩阵与向量相乘是实施运动(变换)的过程。
- 同一变换在不同坐标系下表现为不同矩阵,但本质相同,因此本征值相同。
下面换个角度看待矩阵。线性空间的基本对象是向量,其表示形式为:
[ a 1 , a 2 , a 3 , … , a n ] [a_1, a_2, a_3, \ldots, a_n] [a1,a2,a3,…,an]
矩阵的表示形式为:
a 11 , a 12 , a 13 , … , a 1 n a_{11}, a_{12}, a_{13}, \ldots, a_{1n} a11,a12,a13,…,a1n
a 21 , a 22 , a 23 , … , a 2 n a_{21}, a_{22}, a_{23}, \ldots, a_{2n} a21,a22,a23,…,a2n
… \ldots …
a n 1 , a n 2 , a n 3 , … , a n n a_{n1}, a_{n2}, a_{n3}, \ldots, a_{nn} an1,an2,an3,…,ann
不难发现,矩阵由一组向量组成。特别地,n 维线性空间中的方阵由 n 个 n 维向量组成。本文仅讨论 n 阶非奇异方阵(理解其是理解矩阵的关键,其他矩阵可视为特殊情况)。学习需抓住主流,不必纠缠于旁支末节。可惜多数教材将主线埋没在细节中,使学习者未明原理先被灌输大量内容。例如数学分析,核心观念是“一个对象可表示为无穷多个合理选择的对象的线性和”,这一概念贯穿始终,是其精华。但教材从不强调这一点,反而让学生做大量习题、记特殊情况(如两类间断点、怪异的可微和可积条件),最终考试后忘得一干二净。其实,反复强调这一核心概念更重要,其他内容可查手册,不必因小失大。
言归正传:若一组向量线性无关,则它们可作为度量线性空间的一组基,进而形成坐标系——每个向量对应一根坐标轴,且是该坐标轴的基本度量单位(长度为 1)。
关键结论:矩阵可描述一个坐标系(前提是矩阵非奇异,即组成矩阵的向量线性无关)。
“你之前说矩阵是运动,现在又说是坐标系,这不是矛盾吗?”
并不矛盾,因为**“对象的变换等价于坐标系的变换”**(更准确地说:“固定坐标系下对象的变换等价于固定对象所处的坐标系变换”,即运动是相对的)。
举例说明:将点 ( 1 , 1 ) (1, 1) (1,1) 变到点 ( 2 , 3 ) (2, 3) (2,3) 有两种方式。① 坐标系不动,点运动:将 ( 1 , 1 ) (1, 1) (1,1) 移到 ( 2 , 3 ) (2, 3) (2,3)。② 点不动,坐标系变换:x 轴单位变为原来的 1/2,y 轴单位变为原来的 1/3,点的坐标变为 ( 2 , 3 ) (2, 3) (2,3)。方式不同,结果相同。
从方式①看,矩阵是运动描述,矩阵与向量相乘是向量(点)的运动过程,即 M a = b Ma = b Ma=b 表示“向量 a 经矩阵 M 描述的变换变为向量 b”。
从方式②看,矩阵 M 描述一个坐标系(也记为 M),则 M a = b Ma = b Ma=b 表示“某向量在坐标系 M 中的度量结果为 a,在坐标系 I(单位矩阵,主对角线为 1、其余为 0 的矩阵)中的度量结果为 b”。
二者本质等价,这是本文关键,需深入理解。在 M 为坐标系的意义下, M a Ma Ma 可视为对向量 a 的环境声明:“注意,该向量在坐标系 M 中的度量结果为 a,在其他坐标系中度量结果不同,M 用于明确其度量环境。”
单独的向量 b 实际是 I b Ib Ib,即“在单位坐标系 I 中,某向量的度量结果为 b”。因此 M a = I b Ma = Ib Ma=Ib 表示“在 M 坐标系中度量为 a 的向量,与在 I 坐标系中度量为 b 的向量是同一向量”,这并非乘法计算,而是身份识别。
由此重新理解向量:向量客观存在,但需在坐标系中度量才能表示——将其在各坐标轴上的投影值按顺序排列,即得到向量的表示形式。所选坐标系(基)不同,向量的表示形式不同。因此,写出向量表示时应声明度量的坐标系,形式为 Ma(表示某向量在 M 坐标系中的度量结果为 a)。我们平时说向量 [ 2 , 3 , 5 , 7 ] T [2, 3, 5, 7]^T [2,3,5,7]T,隐含其在 I 坐标系中的度量结果,这是简化的特殊情况。
需注意,矩阵 M 描述的坐标系由一组基组成,而这组基本身的度量也依赖于坐标系,即 M 实际是 I M IM IM(M 中的基在 I 坐标系中的度量结果)。由此, M × N M \times N M×N 并非单纯的矩阵乘法,而是声明“在 M 坐标系中度量的坐标系 N(M 本身在 I 坐标系中度量),在 I 坐标系中的度量结果为 M × N M \times N M×N”。
回到变换问题,“固定坐标系下对象的变换等价于固定对象所处的坐标系变换”中的“对象”是向量,那么坐标系的变换如何实现?
由 M a = I b Ma = Ib Ma=Ib,若要将 M 变换为 I,需左乘 M − 1 M^{-1} M−1(M 的逆矩阵)。即,对坐标系 M 施加 M − 1 M^{-1} M−1 变换可得到 I,此时 M 坐标系中的 a 在 I 坐标系中度量为 b。
建议通过画图理解:若坐标系 x 轴单位为 2、y 轴单位为 3(矩阵为 [ 2 0 0 3 ] \begin{bmatrix}2 & 0 \\ 0 & 3\end{bmatrix} [2003]),则该坐标系中坐标为 ( 1 , 1 ) (1, 1) (1,1) 的点在笛卡尔坐标系(I)中为 ( 2 , 3 ) (2, 3) (2,3)。将原坐标系的 x 轴单位缩为 1/2、y 轴单位缩为 1/3(即左乘矩阵 [ 1 / 2 0 0 1 / 3 ] \begin{bmatrix}1/2 & 0 \\ 0 & 1/3\end{bmatrix} [1/2001/3],此为原矩阵的逆矩阵),坐标系变为 I,点的坐标变为 ( 2 , 3 ) (2, 3) (2,3)。
结论:“对坐标系施加变换的方法,是将表示该坐标系的矩阵与表示变换的矩阵相乘”。矩阵乘法再次成为运动的施加,只是此时被施加运动的是坐标系而非向量。
若理解上述内容,可进一步思考: M × N M \times N M×N 一方面表示坐标系 N 在运动 M 下的变换结果;另一方面,将 M 视为 N 的环境描述,即“在 M 坐标系中度量的坐标系 N,在 I 坐标系中的度量结果为 M × N M \times N M×N”。
至此,可解答线性代数学习中的一个困惑:矩阵乘法规则为何如此规定?原因如下:
- 从变换角度,对坐标系 N 施加 M 变换,即对组成 N 的每个向量施加 M 变换。
- 从坐标系角度,在 M 坐标系中表现为 N 的坐标系,等价于将 N 的基在 I 坐标系中的坐标汇总为新矩阵。
- 矩阵乘以向量的规则源于:在 M 坐标系中度量为 a 的向量,要得到其在 I 坐标系中的度量结果,需与 M 中的每个向量进行内积运算(推导过程留给感兴趣的读者,此处已较清晰)。
综上,矩阵乘法规则是合理且有依据的,并非随意规定。
矩阵既是坐标系又是变换,运动与实体在此统一,难以严格区分。正如“道可道,非常道;名可名,非常名”,矩阵是“不可道之道,不可名之名”。此时不得不承认,线性代数教材中对矩阵的定义无比正确:“矩阵是由 m 行 n 列数组成的数学对象。”
3. 行列式
最后讨论行列式。矩阵 M 的行列式实际上是组成 M 的各个向量按平行四边形法则构成的 n 维立方体的体积。其精妙之处难以言表,或许是我掌握的数学工具不足,希望有人能进一步阐释其中原理。
以上内容需要仔细推敲。此外,不必等待本系列后续内容,因工作原因,近期难以继续深入这一领域(尽管仍有兴趣)。若有后续(第四部分),可能涉及应用层面(如计算机图形学相关算法的理解),但无法承诺近期推出。
参考书
- 前苏联名著《数学:它的内容、方法和意义》
- 龚昇《线性代数五讲》
- Encounter with Mathematics《数学概观》
“如果不熟悉线性代数的概念,要去学习自然科学,现在看来就和文盲差不多。”
– 瑞典数学家 Lars Garding 名著《Encounter with Mathematics》 - Thomas A. Garrity 的《数学拾遗》
- 齐民友《重温微积分》
via:_
-
理解矩阵(一)_矩阵在空间中表示什么 - 优快云 博客 myan 于 2006 - 04 - 02 00:30:00 发布
https://blog.youkuaiyun.com/myan/article/details/647511 -
理解矩阵(二)_理解矩阵的本质-优快云博客 myan于 2006 - 04 - 03 14:01:00 发布
https://blog.youkuaiyun.com/myan/article/details/649018 -
理解矩阵(三)_理解矩阵的本质-优快云博客 myan 于 2007 - 11 - 03 21:42:00 发布
https://blog.youkuaiyun.com/myan/article/details/1865397
54万+

被折叠的 条评论
为什么被折叠?



