二次型 : 线性代数数学基础!!!

1. 二次型

基本定义

二次型是代数中的重要概念,是一种特殊的多项式函数。

定义:若 x=(x1,x2,…,xn)T∈Rnx = (x_1, x_2, \ldots, x_n)^T \in \mathbb{R}^nx=(x1,x2,,xn)TRn,则形如 f(x)=xTAxf(x) = x^T A xf(x)=xTAx 的函数称为二次型,其中 AAAn×nn \times nn×n 的矩阵,称为二次型的矩阵。

具体展开可表示为: f(x)=∑i=1n∑j=1naijxixjf(x) = \sum_{i=1}^{n}\sum_{j=1}^{n}a_{ij}x_ix_jf(x)=i=1nj=1naijxixj

T 表示转置(transpose)。当看到x=(x1,x2,…,xn)Tx = (x_1, x_2, \ldots, x_n)^Tx=(x1,x2,,xn)T 这种写法时,意味着这是一个列向量,而不是行向量。

标准形与规范形

标准形

二次型的标准形是指不含交叉项的形式,即: f(x)=a11y12+a22y22+⋯+annyn2f(x) = a_{11}y_1^2 + a_{22}y_2^2 + \cdots + a_{nn}y_n^2f(x)=a11y12+a22y22++annyn2

规范形

规范形是指系数只有 1,−1,01, -1, 01,1,0 的标准形: f(y)=y12+y22+⋯+yp2−yp+12−⋯−yp+q2f(y) = y_1^2 + y_2^2 + \cdots + y_p^2 - y_{p+1}^2 - \cdots - y_{p+q}^2f(y)=y12+y22++yp2yp+12yp+q2

其中 p+q≤np + q \leq np+qn,且 p,qp, qp,q 的值与二次型矩阵 AAA 的正、负特征值的个数有关。

矩阵表示

若二次型 f(x)=∑i=1n∑j=1naijxixjf(x) = \sum_{i=1}^{n}\sum_{j=1}^{n}a_{ij}x_ix_jf(x)=i=1nj=1naijxixj,则可以表示为: f(x)=xTAxf(x) = x^T A xf(x)=xTAx

其中矩阵 A=(aij)n×nA = (a_{ij})_{n \times n}A=(aij)n×n,且可设 aij=ajia_{ij} = a_{ji}aij=aji(即 AAA 为对称矩阵)。

合同变换

通过坐标变换 x=Pyx = Pyx=Py,其中 PPP 是可逆矩阵,可以将二次型化为标准形: f(x)=xTAx=(Py)TA(Py)=yT(PTAP)yf(x) = x^T A x = (Py)^T A (Py) = y^T (P^T A P) yf(x)=xTAx=(Py)TA(Py)=yT(PTAP)y

这种变换称为合同变换,PTAPP^T A PPTAPAAA 称为合同。

惯性定理

惯性定理:无论如何选择可逆变换 PPP,使二次型 f(x)=xTAxf(x) = x^T A xf(x)=xTAx 化为标准形: f(y)=λ1y12+λ2y22+⋯+λnyn2f(y) = \lambda_1 y_1^2 + \lambda_2 y_2^2 + \cdots + \lambda_n y_n^2f(y)=λ1y12+λ2y22++λnyn2

其中正系数的个数 ppp 和负系数的个数 qqq 是唯一确定的,分别等于矩阵 AAA 的正、负特征值的个数。

正定二次型

定义:如果对任意非零向量 x∈Rnx \in \mathbb{R}^nxRn,都有 f(x)=xTAx>0f(x) = x^T A x > 0f(x)=xTAx>0,则称 f(x)f(x)f(x) 为正定二次型,相应的矩阵 AAA 称为正定矩阵。

判定方法

  1. 特征值法:AAA 的所有特征值均为正数
  2. 顺序主子式法:AAA 的各阶顺序主子式均大于零
  3. Sylvester 判别法:AAA 的各阶顺序主子式行列式均大于零

应用举例

二次型在多个领域有广泛应用:

  1. 最优化问题:二次规划中的目标函数常表示为二次型
  2. 统计学:多元正态分布的指数项包含二次型
  3. 物理学:描述粒子系统的势能和动能
  4. 工程学:控制系统的稳定性分析

实例分析

考虑二次型 f(x)=2x12+3x22+4x1x2f(x) = 2x_1^2 + 3x_2^2 + 4x_1x_2f(x)=2x12+3x22+4x1x2

步骤1:写出二次型矩阵 A=(2223)A = \begin{pmatrix} 2 & 2 \\ 2 & 3 \end{pmatrix}A=(2223)

步骤2:求特征值 det⁡(A−λI)=∣2−λ223−λ∣=(2−λ)(3−λ)−4=λ2−5λ+2\det(A - \lambda I) = \begin{vmatrix} 2-\lambda & 2 \\ 2 & 3-\lambda \end{vmatrix} = (2-\lambda)(3-\lambda) - 4 = \lambda^2 - 5\lambda + 2det(AλI)=2λ223λ=(2λ)(3λ)4=λ25λ+2

解得:λ1=5+172≈4.56\lambda_1 = \frac{5+\sqrt{17}}{2} \approx 4.56λ1=25+174.56, λ2=5−172≈0.44\lambda_2 = \frac{5-\sqrt{17}}{2} \approx 0.44λ2=25170.44

步骤3:由于特征值均为正,所以此二次型为正定二次型。

2. 二次型矩阵

二次型矩阵是通过系数对应的方式从二次型表达式中得到的。我来解释一下如何从二次型 f(x)=2x12+3x22+4x1x2f(x) = 2x_1^2 + 3x_2^2 + 4x_1x_2f(x)=2x12+3x22+4x1x2 得到矩阵 AAA

对于二次型 f(x)=∑i=1n∑j=1naijxixjf(x) = \sum_{i=1}^n\sum_{j=1}^n a_{ij}x_i x_jf(x)=i=1nj=1naijxixj,其矩阵表示为 A=[aij]A = [a_{ij}]A=[aij]。但通常我们会将矩阵写成对称形式,因为二次型中 xixjx_i x_jxixjxjxix_j x_ixjxi 是相同的。

对于给定的二次型 f(x)=2x12+3x22+4x1x2f(x) = 2x_1^2 + 3x_2^2 + 4x_1x_2f(x)=2x12+3x22+4x1x2,我们有:

  • x12x_1^2x12 的系数是 2,对应矩阵中的 a11=2a_{11} = 2a11=2
  • x22x_2^2x22 的系数是 3,对应矩阵中的 a22=3a_{22} = 3a22=3
  • x1x2x_1x_2x1x2 的系数是 4,但由于这是交叉项,我们需要将其分配到 a12a_{12}a12a21a_{21}a21,即 a12=a21=42=2a_{12} = a_{21} = \frac{4}{2} = 2a12=a21=24=2

所以二次型矩阵为: A=(2223)A = \begin{pmatrix} 2 & 2 \\ 2 & 3 \end{pmatrix}A=(2223)

一般来说,对于二次型中的平方项系数 axi2ax_i^2axi2,我们直接在矩阵的对角线上放置 aii=aa_{ii} = aaii=a;对于交叉项 bxixjbx_i x_jbxixj (当 i≠ji \neq ji=j),我们将系数的一半放在对称位置,即 aij=aji=b2a_{ij} = a_{ji} = \frac{b}{2}aij=aji=2b

3. 二次型的意义

二次型从几何和应用角度理解,可以很形象地描述为:

几何意义: 二次型本质上是描述多维空间中的"曲面"或"曲率"的数学工具。比如在二维空间中:

  1. 圆与椭圆:正定二次型(如你例子中的)在平面上形成一个椭圆或圆。想象你站在坐标原点,向各个方向看去,看到的是一个封闭的曲线,表示相同"高度"的点。

  2. 双曲面:不定二次型在平面上形成双曲线。想象一个马鞍形状的表面,在某些方向上向上弯曲,在其他方向上向下弯曲。

  3. 抛物面:半正定二次型在某些方向上是平的,在其他方向上向上弯曲,像一个可以滚动的沟槽。

实际应用中的意义

  1. 能量表示:在物理中,二次型常用来表示系统的能量。比如弹簧的势能是位移的二次函数,一个多弹簧系统的总势能就可以用二次型表示。

  2. 误差度量:在统计和机器学习中,二次型用于计算多维空间中的距离或误差。比如最小二乘法中的误差函数。

  3. 稳定性分析:在控制理论中,正定二次型对应稳定系统,表示系统总是趋向于回到平衡状态。

  4. 优化问题:二次型的极值问题在优化算法中非常重要,比如梯度下降法就是寻找二次型的最小值。

形象地说,二次型就像是描述"地形"的方程——它告诉你在多维空间中哪里是山峰,哪里是山谷,哪些地方是平坦的,哪些地方有陡峭的斜坡。正定二次型就像一个封闭的山谷,无论你从哪个方向出发,最终都会回到谷底(原点);而不定二次型则像是一个山口,有些方向通向山顶,有些方向通向山谷。

通过特征值和特征向量的分析,我们实际上是在寻找这个"地形"的主要走向和特征——哪个方向最陡峭,哪个方向最平缓,这正是理解复杂系统行为的关键。

4. 二次型的发现以及应用历史

二次型的数学理论和应用有着丰富的历史发展脉络,从古代几何学到现代数学和科学应用,二次型经历了从具体到抽象、从特殊到一般的发展过程。

早期起源

二次型的概念源于古代几何学中对圆锥曲线(椭圆、双曲线和抛物线)的研究。古希腊数学家阿波罗尼奥斯(Apollonius,约公元前262-190年)在他的著作《圆锥曲线论》中系统研究了这些曲线,这些研究实际上涉及了特殊形式的二次型。

17-18世纪:解析几何与二次曲线

二次型的现代理论始于17世纪笛卡尔(René Descartes,1596-1650)和费马(Pierre de Fermat,1607-1665)创立解析几何后。笛卡尔将几何问题转化为代数方程,为二次型的代数研究奠定了基础。

欧拉(Leonhard Euler,1707-1783)和拉格朗日(Joseph-Louis Lagrange,1736-1813)进一步发展了这一领域,特别是在研究刚体旋转和力学问题时引入了二次型的概念。

19世纪:二次型理论的系统发展

高斯(Carl Friedrich Gauss,1777-1855)在研究曲面理论和测地线问题时使用了二次型,并发展了二次型的正定性理论。他在《曲面基本性质的一般研究》(1827)中引入了所谓的"第一基本形式",这是一个定义曲面度量的二次型。

雅可比(Carl Gustav Jacob Jacobi,1804-1851)和西尔维斯特(James Joseph Sylvester,1814-1897)系统研究了二次型的代数理论,特别是关于二次型的分类和标准形的理论。西尔维斯特引入了"惯性定律",证明了实对称矩阵的正、负和零特征值的数量是不变的。

20世纪初:广义相对论中的应用

爱因斯坦(Albert Einstein,1879-1955)在广义相对论(1915)中使用了黎曼几何和二次型,特别是度规张量(一种二次型)来描述时空的弯曲。这是二次型在物理学中的一个里程碑式应用。

现代应用

随着计算机科学和数据分析的发展,二次型在以下领域有着广泛应用:

  1. 优化理论:二次规划是运筹学中的重要分支,处理带有二次目标函数的优化问题。

  2. 机器学习:支持向量机、主成分分析等算法中,二次型用于测量数据点之间的距离和相似性。

  3. 控制理论:二次型用于构造李雅普诺夫函数,分析动态系统的稳定性。

  4. 量子力学:描述粒子能量和动量的二次型是量子理论的基础部分。

  5. 统计学:多元统计分析中,二次型用于测量距离和构造检验统计量。

  6. 计算机图形学:二次曲面的渲染和处理利用了二次型的几何特性。

历史意义

二次型理论的发展体现了数学从具体问题抽象出一般理论的过程。最初源于对具体几何问题的研究,逐渐发展成为具有丰富理论和广泛应用的代数结构。它连接了线性代数、微分几何、数论等多个数学分支,同时在物理学、工程学、计算机科学等领域有着重要应用。

二次型理论的历史也反映了数学与物理学之间的互动:物理学提出了需要用二次型描述的问题,而数学发展了相关理论,这些理论又反过来推动了物理学的进步。

5. 二次型为什么会和矩阵产生联系

二次型与矩阵的联系源于它们都是描述多变量二次关系的数学工具,这种联系既自然又深刻。

二次型本质上是多变量的二次多项式,形如 f(x1,x2,...,xn)=∑i=1n∑j=1naijxixjf(x_1, x_2, ..., x_n) = \sum_{i=1}^n \sum_{j=1}^n a_{ij}x_i x_jf(x1,x2,...,xn)=i=1nj=1naijxixj。这种表达式包含了变量的平方项和交叉乘积项。

而矩阵则是系数的有序排列。当我们考虑将二次型写成矩阵形式时,会发现这种对应关系非常自然:

  1. 表示的简洁性:二次型可以简洁地写成矩阵形式 f(x)=xTAxf(x) = x^T A xf(x)=xTAx,其中 xxx 是变量向量,AAA 是系数矩阵。

  2. 对称性的体现:由于 xixj=xjxix_i x_j = x_j x_ixixj=xjxi,二次型中 aijxixja_{ij}x_i x_jaijxixjajixjxia_{ji}x_j x_iajixjxi 的系数可以合并,这导致我们通常使用对称矩阵来表示二次型。

  3. 线性变换的视角:当我们对变量做线性变换 x=Pyx = Pyx=Py 时,二次型变为 f(x)=yT(PTAP)yf(x) = y^T (P^T A P) yf(x)=yT(PTAP)y,这对应于矩阵的合同变换,揭示了二次型的几何性质。

  4. 特征值和特征向量:矩阵的特征值和特征向量告诉我们二次型的主轴方向和在这些方向上的"伸缩"程度,这对应于二次曲面的主轴。

  5. 规范形的求解:通过矩阵对角化,我们可以将二次型化为标准形式 ∑i=1nλiyi2\sum_{i=1}^n \lambda_i y_i^2i=1nλiyi2,其中 λi\lambda_iλi 是矩阵的特征值。

这种联系不仅是表示上的方便,更重要的是它建立了代数结构(二次型)与几何直观(矩阵表示的线性变换)之间的桥梁,使我们能够利用线性代数的强大工具来分析和处理二次型问题。

在实际应用中,无论是描述物理系统的能量、分析数据的协方差结构、还是研究优化问题的目标函数,这种二次型与矩阵的对应关系都提供了强大的分析框架。

6. 线性代数中的二次型:f(x)=xTAxf(x) = x^T A xf(x)=xTAx

引言

二次型是一个标量值函数 f(x)=xTAxf(x) = x^T A xf(x)=xTAx,其中:

  • xxx 是一个 nnn 维向量
  • AAA 是一个 n×nn \times nn×n 矩阵
  • xTx^TxT 是向量 xxx 的转置

这个表达式从向量输入产生一个单一的数值(标量)。

基本示例

让我们从一个简单的二维示例开始:

如果 x=[x1x2]x = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix}x=[x1x2]A=[a11a12a21a22]A = \begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{bmatrix}A=[a11a21a12a22],那么:

f(x)=xTAx=[x1x2][a11a12a21a22][x1x2] f(x) = x^T A x = \begin{bmatrix} x_1 & x_2 \end{bmatrix} \begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} f(x)=xTAx=[x1x2][a11a21a12a22][x1x2]

逐步计算:

xTA=[x1x2][a11a12a21a22]=[x1a11+x2a21x1a12+x2a22] \begin{align} x^T A &= \begin{bmatrix} x_1 & x_2 \end{bmatrix} \begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{bmatrix} \\ &= \begin{bmatrix} x_1 a_{11} + x_2 a_{21} & x_1 a_{12} + x_2 a_{22} \end{bmatrix} \end{align} xTA=[x1x2][a11a21a12a22]=[x1a11+x2a21x1a12+x2a22]

然后:

xTAx=[x1a11+x2a21x1a12+x2a22][x1x2]=(x1a11+x2a21)x1+(x1a12+x2a22)x2=a11x12+a21x1x2+a12x1x2+a22x22 \begin{align} x^T A x &= \begin{bmatrix} x_1 a_{11} + x_2 a_{21} & x_1 a_{12} + x_2 a_{22} \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} \\ &= (x_1 a_{11} + x_2 a_{21})x_1 + (x_1 a_{12} + x_2 a_{22})x_2 \\ &= a_{11}x_1^2 + a_{21}x_1 x_2 + a_{12}x_1 x_2 + a_{22}x_2^2 \end{align} xTAx=[x1a11+x2a21x1a12+x2a22][x1x2]=(x1a11+x2a21)x1+(x1a12+x2a22)x2=a11x12+a21x1x2+a12x1x2+a22x22

如果 AAA 是对称的(即 a12=a21a_{12} = a_{21}a12=a21),这在二次型中经常出现,那么:

f(x)=a11x12+2a12x1x2+a22x22 f(x) = a_{11}x_1^2 + 2a_{12}x_1 x_2 + a_{22}x_2^2 f(x)=a11x12+2a12x1x2+a22x22

几何解释

二次型有重要的几何解释:

  1. AAA 是正定的,f(x)=xTAxf(x) = x^T A xf(x)=xTAxnnn 维空间中表示一个椭球体
  2. AAA 既有正特征值又有负特征值时,f(x)=xTAxf(x) = x^T A xf(x)=xTAx 表示一个双曲面
  3. AAA 是半正定的,f(x)=xTAxf(x) = x^T A xf(x)=xTAx 表示一个椭圆抛物面或圆柱体

实际例子

让我们考虑一个具体的例子:

A=[2113],x=[21] A = \begin{bmatrix} 2 & 1 \\ 1 & 3 \end{bmatrix}, \quad x = \begin{bmatrix} 2 \\ 1 \end{bmatrix} A=[2113],x=[21]

计算 f(x)=xTAxf(x) = x^T A xf(x)=xTAx

f(x)=[21][2113][21]=[2⋅2+1⋅12⋅1+1⋅3][21]=[55][21]=5⋅2+5⋅1=10+5=15 \begin{align} f(x) &= \begin{bmatrix} 2 & 1 \end{bmatrix} \begin{bmatrix} 2 & 1 \\ 1 & 3 \end{bmatrix} \begin{bmatrix} 2 \\ 1 \end{bmatrix} \\ &= \begin{bmatrix} 2 \cdot 2 + 1 \cdot 1 & 2 \cdot 1 + 1 \cdot 3 \end{bmatrix} \begin{bmatrix} 2 \\ 1 \end{bmatrix} \\ &= \begin{bmatrix} 5 & 5 \end{bmatrix} \begin{bmatrix} 2 \\ 1 \end{bmatrix} \\ &= 5 \cdot 2 + 5 \cdot 1 \\ &= 10 + 5 \\ &= 15 \end{align} f(x)=[21][2113][21]=[22+1121+13][21]=[55][21]=52+51=10+5=15

重要性质

  1. 对称性:对于任何二次型,我们总是可以使用对称矩阵 AAA 而不失一般性,因为只有 AAA 的对称部分对二次型有贡献:

    xTAx=xT(A+AT2)x x^T A x = x^T \left(\frac{A + A^T}{2}\right) x xTAx=xT(2A+AT)x

  2. 对角化:任何二次型都可以通过改变基底进行对角化:

    xTAx=yTDy x^T A x = y^T D y xTAx=yTDy

    其中 DDD 是包含 AAA 特征值的对角矩阵。

  3. 通过特征值分类

    • 如果所有特征值都是正的,则 AAA 是正定的
    • 如果所有特征值都是非负的,则 AAA 是半正定的
    • 如果所有特征值都是负的,则 AAA 是负定的
    • 如果所有特征值都是非正的,则 AAA 是半负定的
    • 如果 AAA 既有正特征值又有负特征值,则 AAA 是不定的

应用

二次型出现在许多领域:

  1. 优化:在许多优化问题中,目标函数是一个二次型
  2. 统计学:在多元统计中,马氏距离使用二次型
  3. 物理学:经典力学中的动能经常表示为二次型
  4. 机器学习:在支持向量机和许多其他算法中

总结

二次型 f(x)=xTAxf(x) = x^T A xf(x)=xTAx 是线性代数中的一个基本概念,它将向量映射到标量。其行为由矩阵 AAA 的性质决定,特别是其特征值。理解二次型对于数学、物理、工程和数据科学中的许多应用至关重要。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI Agent首席体验官

您的打赏是我继续创作的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值