最小二乘法小结
最小二乘法原理
1. 介绍部分
最小二乘法是获得物理参数唯一值的标准方法,具体是通过这些参数或者在已知数学模型中与这些参数相关的参数的多余观测值来求得。
最小二乘法最早是由高斯提出,用来估计行星运行轨道的。
1.1 数理统计和最小二乘法
物理量总是不能被精确测定。总是存在一个限定的测量精度,超过这个精度,相关的数学模型和测量仪器的分辨率这两者之一或者全部将会无能为力。超出这个精度,多余观测值之间会产生差异。
我们常常希望获得超过该限定精度的测量值,在不知道真值的情况下我们只能估计真值。一方面我们想要估计出唯一的值,另一方面,我们想要知道这个估计有多好。最小二乘法就是这样一个估计,它基于最小化差值的平方和。
最小二乘法相比其他传统的方法有三个优点。其一,它既可以应用在线性数学模型上也可以应用在非线性数学模型上;其二,它和统计量算术平均值有关;其三,最小二乘法在很多领域是通用的。
物理量的值的唯一统计估计称为点估计。无论频率函数是否知道,我们都可以作物理量的点估计并且可以衡量它与真值趋近程度。另外两种估计,区间估计以及假设检验,它们只能在相应的频率函数已经确定的情况下进行。
1.2 线性代数和最小二乘法
(nontrivial=nonzero,非平凡解就是指非零解)
现有线性方程组
A X= L (1-1)
X是未知数向量,L是常数向量,A是系数矩阵,[A:L]是增广矩阵。该方程组有唯一非零解仅当
L ≠ 0 (非齐次方程组), (1-2a)
r (A) = X的维数, (1-2b)
r ([A:L]) = r (A)。 (1-2c)
当没有多余等式时,准则(1-2b)意味着A是方阵且非奇异,它的逆矩阵是存在的,这样方程组的解就表达成
X = A L (1-3)
当存在多余等式时,A将不是方阵,但是AA是方阵且非奇异,这样方程组的解就表达成
X = (AA) A L 。 (1-4)
L的元素对应于物理量观测值,基于上述数学讨论,如果没有多余观测量(即没有多余的等式),则未知量将只有唯一的非零解。如果存在多余观测量,它们之间将互相不一致,因为观测存在误差。这样(1-2c)准则就无法满足,也就不存在唯一解。我们只能对结果做一个唯一的估计。从而引入了最小二乘准则。
因为观测误差的存在,使得方程组(1-1)左右矛盾,为此引入一个向量来抵消这个矛盾,从而使方程组成立。于是有
A X - L = V (1-5)
V称为残差向量。引入作为X的最优估值,这样最小二乘准则表达为
min (1-6)
估值称为最小二乘估值。由式(1-4)可得
, (1-7)
观测误差或残差的最优估值由下式得出
。 (1-8)
这些估值称为简单最小二乘估值,或者称为等权最小二乘估值。
组成的物理量观测值不总是等精度的(比如采用了不同的观测仪器或者不同的观测条件),因此我们给每个观测量分配一个已知的权重,由这些元素构成的矩阵称为权阵。这样,先前的最小二乘准则调整为
min 。 (1-9)
未知量估值调整为
(1-10)
如果作为观测值的估量协方差阵的逆阵,那么最小二乘估计就是最小方差估计;如果观测误差是正态分布,那么最小二乘方差估计就是最大似然估计。
考虑更一般的情形,此时观测量未知参数的非线性方程相关
(1-11)
或者,观测量与未知参数的方程非线性相关
(1-12)
1.3 数字计算机和最小二乘法
从实际出发,矩阵求逆以及矩阵乘法都要求海量的计算步骤。在大型快速计算机发明以前,除非绝对必要,一般是不会去做这样的尝试。然而测量网坐标的最小二乘估计就是这样的必要情况。以前的大地测量学家在简化步骤创新方法上做出很多努力,计算机发明之后这项工作显得没原来那么重要了。然而计算机也不能同时计算多达数千个方程,因此,如今大地测量学家把精力放在改进算法上,以便将一个大问题拆分成许多小问题,再逐一解决。
1.4 高斯和最小二乘法
以下是对高斯一段引文的翻译
“如果用于轨道计算的天文观