学习最优化导论过程中做的一点笔记,就当梳理知识点.
向量空间与矩阵
1.1 向量与矩阵
1.1.1 定义
n n n 维向量 : 含有 n n n个数的数组,如:
a ⃗ = [ a 1 a 2 a 3 ⋮ a n ] \vec a= \begin{bmatrix} a_1\\ a_2\\ a_3\\ \vdots\\ a_n \end{bmatrix} a=⎣⎢⎢⎢⎢⎢⎡a1a2a3⋮an⎦⎥⎥⎥⎥⎥⎤
a i a_i ai表示向量 a ⃗ \vec a a的第 i i i个元素,定义 R R R为全体实数组成的集合,那么实数组成的 n n n维向量可表示为 R n R^n Rn。
n
n
n 维行向量记为:
a
⃗
=
[
a
1
,
a
2
,
⋯
,
a
n
]
\vec a= \begin{bmatrix} a_1, a_2,\cdots, a_n \end{bmatrix}
a=[a1,a2,⋯,an]
1.1.2 运算及性质
向量加减:
a
⃗
+
b
⃗
=
[
a
1
+
b
1
,
a
2
+
b
2
,
⋯
,
a
n
+
b
n
]
\vec a +\vec b= \begin{bmatrix} a_1+b_1, a_2+b_2,\cdots, a_n+b_n \end{bmatrix}
a+b=[a1+b1,a2+b2,⋯,an+bn]
具有以下性质:
a
⃗
+
b
⃗
=
b
⃗
+
a
⃗
(
a
⃗
+
b
⃗
)
+
c
⃗
=
a
⃗
+
(
b
⃗
+
c
⃗
)
存
在
零
向
量
:
0
=
[
0
,
0
,
0
,
⋯
,
0
]
T
,
使
得
a
⃗
+
0
=
a
⃗
\vec a+ \vec b=\vec b+\vec a\\ \quad\\ (\vec a+ \vec b)+\vec c=\vec a+(\vec b+\vec c)\\ \quad\\ 存在零向量:\textbf{0}=\begin{bmatrix} 0,0,0,\cdots,0 \end{bmatrix}^T,使得\vec a+\textbf{0}=\vec a
a+b=b+a(a+b)+c=a+(b+c)存在零向量:0=[0,0,0,⋯,0]T,使得a+0=a
向量乘积——与标量 α \alpha α ∈ R \in R ∈R 的乘积
α a ⃗ = [ α a 1 , α a 2 , ⋯ , α a n , ] \alpha \vec a=\begin{bmatrix} \alpha a_1,\alpha a_2,\cdots,\alpha a_n, \end{bmatrix} αa=[αa1,αa2,⋯,αan,]
具有以下的性质:
α
(
a
⃗
+
b
⃗
)
=
α
a
⃗
+
α
b
⃗
α
(
a
⃗
+
b
⃗
)
=
α
a
⃗
+
α
b
⃗
α
(
β
a
⃗
)
=
(
α
β
)
a
⃗
\alpha(\vec{a}+\vec{b})=\alpha\vec{a}+\alpha\vec{b}\\ \alpha(\vec{a}+\vec{b})=\alpha\vec{a}+\alpha\vec{b}\\ \alpha(\beta\vec{a})=(\alpha\beta)\vec{a}\\
α(a+b)=αa+αbα(a+b)=αa+αbα(βa)=(αβ)a
1.1.3 线性相关与线性组合
① 如果方程
α
1
a
⃗
1
+
α
2
a
⃗
2
+
⋯
+
α
n
a
⃗
n
=
0
\alpha_1\vec{a}_1+\alpha_2\vec{a}_2+\cdots+\alpha_n\vec{a}_n=0\\
α1a1+α2a2+⋯+αnan=0
其中
α
i
(
i
=
1
,
⋯
,
k
)
\alpha_i(i=1,\cdots, k)
αi(i=1,⋯,k)都等于0,那么 向量集 {
a
⃗
1
,
a
⃗
2
,
⋯
,
a
⃗
n
\vec{a}_1,\vec{a}_2,\cdots,\vec{a}_n
a1,a2,⋯,an}是 线性无关的 ,反之称为线性相关。(实际上,包含0向量的集合都是线性相关的)
② 给定向量
a
⃗
\vec{a}
a, 如果存在标量
α
1
,
α
2
,
⋯
,
α
k
\alpha_1,\alpha_2,\cdots,\alpha_k
α1,α2,⋯,αk,使得
a
⃗
=
α
1
a
⃗
1
+
α
2
a
⃗
2
+
⋯
+
α
n
a
⃗
k
\vec{a}=\alpha_1\vec{a}_1+\alpha_2\vec{a}_2+\cdots+\alpha_n\vec{a}_k\\
a=α1a1+α2a2+⋯+αnak
称 a ⃗ 为 a ⃗ 1 , a ⃗ 2 , ⋯ , a ⃗ k \vec{a}为\vec{a}_1, \vec{a}_2, \cdots, \vec{a}_k a为a1,a2,⋯,ak的线性组合
结合①和②给出一个命题:
向量集 { a ⃗ 1 , a ⃗ 2 , ⋯ , a ⃗ k \vec{a}_1,\vec{a}_2,\cdots,\vec{a}_k a1,a2,⋯,ak}是线性相关的,当且仅当集合中的一个向量可以被视为其他向量的线性组合。

进一步来观察一下线性相关和线性无关,现在我们给出两个二维的向量集(
R
2
R^2
R2):
a
⃗
=
[
2
,
3
2
,
3
]
b
⃗
=
[
1
,
6
3
,
4
]
\vec{a}= \begin{bmatrix} 2,3\\ 2,3\\ \end{bmatrix} \qquad \vec{b}= \begin{bmatrix} 1,6\\ 3,4\\ \end{bmatrix}
a=[2,32,3]b=[1,63,4]


把 a ⃗ \vec{a} a和 b ⃗ \vec{b} b的每一个向量都画出来:
在向量
a
⃗
\vec{a}
a的图中,
a
⃗
1
,
a
⃗
2
\vec{a}_1,\vec{a}_2
a1,a2 共线,二者的线性组合只能表示同样在这条线上的向量,不能完全表示整个二维平面,并且
−
3
a
⃗
1
2
+
1
a
⃗
2
=
0
\frac{-3\vec{a}_1}{2}+1\vec{a}_2 =0
2−3a1+1a2=0
在向量 b ⃗ \vec{b} b的图中, b ⃗ 1 , b ⃗ 2 \vec{b}_1,\vec{b}_2 b1,b2 的线性组合可以表示整个二维平面的所有向量。
线性相关——至少有一对向量共线;线性无关——不存在一组共线向量
1.1.4 生成空间
① 假定
a
⃗
1
,
a
⃗
2
,
⋯
,
a
⃗
k
\vec{a}_1,\vec{a}_2,\cdots,\vec{a}_k
a1,a2,⋯,ak 是
R
n
R^n
Rn中的任意向量,他们的所有线性组合的集合称为
a
⃗
1
,
a
⃗
2
,
⋯
,
a
⃗
k
\vec{a}_1,\vec{a}_2,\cdots,\vec{a}_k
a1,a2,⋯,ak 张成的子空间:
s
p
a
n
[
a
⃗
1
,
a
⃗
2
,
⋯
,
a
⃗
k
]
=
{
∑
i
=
1
k
α
i
a
⃗
i
:
α
1
,
⋯
,
α
k
∈
R
}
span[\vec{a}_1,\vec{a}_2,\cdots,\vec{a}_k]= \{\sum_{i=1}^{k} \alpha_i\vec{a}_i:\alpha_1,\cdots,\alpha_k \in R \}
span[a1,a2,⋯,ak]={i=1∑kαiai:α1,⋯,αk∈R}
如果
a
⃗
\vec{a}
a 能够被表示为
a
⃗
1
,
a
⃗
2
,
⋯
,
a
⃗
k
\vec{a}_1,\vec{a}_2,\cdots,\vec{a}_k
a1,a2,⋯,ak的线性组合,那么有
s
p
a
n
[
a
⃗
1
,
a
⃗
2
,
⋯
,
a
⃗
k
]
=
s
p
a
n
[
v
e
c
a
1
,
a
⃗
2
,
⋯
,
a
⃗
k
,
a
⃗
]
span[\vec{a}_1,\vec{a}_2,\cdots,\vec{a}_k]=span[vec{a}_1,\vec{a}_2,\cdots,\vec{a}_k,\vec{a}]
span[a1,a2,⋯,ak]=span[veca1,a2,⋯,ak,a]
② 给定一个子空间,如果存在线性无关的向量集合 { a ⃗ 1 , a ⃗ 2 , ⋯ , a ⃗ k } \{\vec{a}_1,\vec{a}_2,\cdots,\vec{a}_k\} {a1,a2,⋯,ak} 使得 子空间= s p a n [ a ⃗ 1 , a ⃗ 2 , ⋯ , a ⃗ k ] span[\vec{a}_1,\vec{a}_2,\cdots,\vec{a}_k] span[a1,a2,⋯,ak] ,那么这组向量就是子空间的一组基。所有基都包含同样数量的向量,这个数量称为子空间的维数,记为 d i m V dim V dimV.
给出一命题:
如果
{
a
⃗
1
,
a
⃗
2
,
⋯
,
a
⃗
k
}
\{\vec{a}_1,\vec{a}_2,\cdots,\vec{a}_k\}
{a1,a2,⋯,ak}是子空间的一组基,那么子空间中的任意向量
a
⃗
\vec{a}
a都可以唯一的表示为:
a
⃗
=
α
1
a
⃗
1
+
α
2
a
⃗
2
+
⋯
+
α
n
a
⃗
k
\vec{a}=\alpha_1\vec{a}_1+\alpha_2\vec{a}_2+\cdots+\alpha_n\vec{a}_k
a=α1a1+α2a2+⋯+αnak
其中,
α
i
∈
R
,
i
=
1
,
2
,
⋯
,
k
\alpha_i\in R,i=1,2,\cdots,k
αi∈R,i=1,2,⋯,k。

R n R^n Rn 的标准基:
e ⃗ 1 = [ 1 0 0 ⋮ 0 0 ] e ⃗ 2 = [ 0 1 0 ⋮ 0 0 ] e ⃗ 2 = [ 0 0 1 ⋮ 0 0 ] ⋯ e ⃗ n = [ 0 0 0 ⋮ 0 1 ] \vec{e}_1= \begin{bmatrix} 1\\ 0\\ 0\\ \vdots \\ 0\\ 0\\ \end{bmatrix} \quad \vec{e}_2=\begin{bmatrix} 0\\ 1\\ 0\\ \vdots\\ 0\\ 0\\ \end{bmatrix} \quad \vec{e}_2=\begin{bmatrix} 0\\ 0\\ 1\\ \vdots\\ 0\\ 0\\ \end{bmatrix} \cdots \vec{e}_n=\begin{bmatrix} 0\\ 0\\ 0\\ \vdots\\ 0\\ 1\\ \end{bmatrix} e1=⎣⎢⎢⎢⎢⎢⎢⎢⎡100⋮00⎦⎥⎥⎥⎥⎥⎥⎥⎤e2=⎣⎢⎢⎢⎢⎢⎢⎢⎡010⋮00⎦⎥⎥⎥⎥⎥⎥⎥⎤e2=⎣⎢⎢⎢⎢⎢⎢⎢⎡001⋮00⎦⎥⎥⎥⎥⎥⎥⎥⎤⋯en=⎣⎢⎢⎢⎢⎢⎢⎢⎡000⋮01⎦⎥⎥⎥⎥⎥⎥⎥⎤
在标准基下,向量
x
⃗
\vec{x}
x可表示为:
x
⃗
=
[
x
1
x
2
x
3
⋮
x
n
]
=
x
1
e
⃗
1
+
x
2
e
⃗
2
+
⋯
+
x
n
e
⃗
n
\vec{x}=\begin{bmatrix} x_1\\ x_2\\ x_3\\ \vdots\\ x_n\\ \end{bmatrix} =x_1\vec{e}_1+x_2\vec{e}_2+\cdots+x_n\vec{e}_n
x=⎣⎢⎢⎢⎢⎢⎡x1x2x3⋮xn⎦⎥⎥⎥⎥⎥⎤=x1e1+x2e2+⋯+xnen
1.1.5 矩阵
矩阵是指行列数组,通常用大写粗体字母表示(
A
A
A)。
m
m
m 行
n
n
n列矩阵称为
m
×
n
m\times n
m×n矩阵,记为:
A
=
[
a
11
a
12
⋯
a
1
n
a
21
a
22
⋯
a
2
n
⋮
⋮
⋱
⋮
a
m
1
a
m
2
⋯
a
m
n
]
A=\begin{bmatrix} a_{11}& a_{12}&\cdots&a_{1n}\\ a_{21}& a_{22}&\cdots&a_{2n}\\ \vdots&\vdots&\ddots&\vdots\\ a_{m1}& a_{m2}&\cdots&a_{mn}\\ \end{bmatrix}
A=⎣⎢⎢⎢⎡a11a21⋮am1a12a22⋮am2⋯⋯⋱⋯a1na2n⋮amn⎦⎥⎥⎥⎤
转置记为:
A
T
=
[
a
11
a
21
⋯
a
m
1
a
12
a
22
⋯
a
m
2
⋮
⋮
⋱
⋮
a
1
n
a
2
n
⋯
a
m
n
]
A^T=\begin{bmatrix} a_{11}& a_{21}&\cdots&a_{m1}\\ a_{12}& a_{22}&\cdots&a_{m2}\\ \vdots&\vdots&\ddots&\vdots\\ a_{1n}& a_{2n}&\cdots&a_{mn}\\ \end{bmatrix}
AT=⎣⎢⎢⎢⎡a11a12⋮a1na21a22⋮a2n⋯⋯⋱⋯am1am2⋮amn⎦⎥⎥⎥⎤
第
k
k
k列用
a
⃗
k
\vec{a}_k
ak表示:
v
e
c
e
n
=
[
a
⃗
1
k
a
⃗
2
k
⋮
a
⃗
m
k
]
vec{e}_n=\begin{bmatrix} \vec{a}_{1k}\\ \vec{a}_{2k}\\ \vdots\\ \vec{a}_{mk} \end{bmatrix}
vecen=⎣⎢⎢⎢⎡a1ka2k⋮amk⎦⎥⎥⎥⎤
R m × n R^{m\times n} Rm×n 表示所有 m × n m\times n m×n矩阵组成的集合
矩阵的秩记作 r a n k A rank A rankA, r a n k A rank A rankA其实就是 s p a n [ a ⃗ 1 , a ⃗ 2 , ⋯ , a ⃗ k ] span[\vec{a}_1,\vec{a}_2,\cdots,\vec{a}_k] span[a1,a2,⋯,ak]的维数。
以下情况,矩阵
A
A
A的秩不会繁盛变化:
①矩阵
A
A
A的某个(些)列乘以非零标量 ②矩阵内部交换次序 ③矩阵中加入一列,该列是其他列的线性组合。
如果矩阵 A A A的行数等于列数,称之为 方阵
行列式是每个方阵对应的一个标量,记作 d e t A detA detA或 ∣ A ∣ |A| ∣A∣。方阵的行列式是个列的函数,具有以下性质
1、对于任意的 α β ∈ R \alpha\beta\in R αβ∈R 和 a ⃗ k 1 , a ⃗ k 2 ∈ R \vec{a}_{k}^{1},\vec{a}_{k}^{2}\in R ak1,ak2∈R
d e t [ a ⃗ 1 , ⋯ , a ⃗ k − 1 , , α a ⃗ k ( 1 ) + β a ⃗ k ( 2 ) , a ⃗ k + 1 , ⋯ , a ⃗ n ] = α d e t [ a ⃗ 1 , ⋯ , a ⃗ k − 1 , , a ⃗ k ( 1 ) , a ⃗ k + 1 , ⋯ , a ⃗ n ] + β d e t [ a ⃗ 1 , ⋯ , a ⃗ k − 1 , , a ⃗ k ( 2 ) , a ⃗ k + 1 , ⋯ , a ⃗ n ] det [\vec{a}_1,\cdots,\vec{a}_{k-1,},\alpha\vec{a}_{k}^{(1)}+\beta\vec{a}_{k}^{(2)},\vec{a}_{k+1},\cdots,\vec{a}_n]\\ =\alpha det[\vec{a}_1,\cdots,\vec{a}_{k-1,},\vec{a}_{k}^{(1)},\vec{a}_{k+1},\cdots,\vec{a}_n]\\ +\beta det[\vec{a}_1,\cdots,\vec{a}_{k-1,},\vec{a}_{k}^{(2)},\vec{a}_{k+1},\cdots,\vec{a}_n]\\ det[a1,⋯,ak−1,,αak(1)+βak(2),ak+1,⋯,an]=αdet[a1,⋯,ak−1,,ak(1),ak+1,⋯,an]+βdet[a1,⋯,ak−1,,ak(2),ak+1,⋯,an]
2、如果对于某个 k k k,有 a ⃗ k = a ⃗ k + 1 \vec{a}_k=\vec{a}_{k+1} ak=ak+1,那么有 d e t A = 0 detA=0 detA=0
3、 R n R^n Rn的标准基组成的矩阵, d e t = 1 det=1 det=1
方阵行列式的具体知识点之后慢慢补充
1.2 线性方程组
1.2.1 基础概念
给定包含
n
n
n个未知量的
m
m
m个方程:
a
11
x
1
+
a
12
x
2
+
⋯
+
a
1
n
x
n
=
b
1
a
21
x
1
+
a
22
x
2
+
⋯
+
a
2
n
x
n
=
b
2
⋮
a
m
1
x
1
+
a
m
2
x
2
+
⋯
+
a
m
n
x
n
=
b
1
\begin{aligned} a_{11}x_1+a_{12}x_2+\cdots+a_{1n}x_n&=b_1\\ a_{21}x_1+a_{22}x_2+\cdots+a_{2n}x_n&=b_2\\ &\vdots\\ a_{m1}x_1+a_{m2}x_2+\cdots+a_{mn}x_n&=b_1\\ \end{aligned}
a11x1+a12x2+⋯+a1nxna21x1+a22x2+⋯+a2nxnam1x1+am2x2+⋯+amnxn=b1=b2⋮=b1
可写成矩阵模式:
A
x
=
b
Ax=b
Ax=b
A
A
A为系数矩阵:
A
=
[
a
1
,
a
2
,
⋯
,
a
n
]
A=[a_1,a_2,\cdots,a_n]
A=[a1,a2,⋯,an]
增广矩阵定义为:
[
A
,
b
]
=
[
a
1
,
a
2
,
⋯
,
a
n
,
b
]
[A,b]=[a_1,a_2,\cdots,a_n,b]
[A,b]=[a1,a2,⋯,an,b]
未知数向量:
x
=
[
x
1
x
2
⋮
x
n
]
\textbf{x}= \begin{bmatrix} x_1\\ x_2\\ \vdots\\ x_n \end{bmatrix}
x=⎣⎢⎢⎢⎡x1x2⋮xn⎦⎥⎥⎥⎤
1.2.2 方程解的情况
①、方程组
A
x
=
b
Ax=b
Ax=b有解,当且仅当
r
a
n
k
A
=
r
a
n
k
[
A
,
b
]
rankA=rank[A,b]
rankA=rank[A,b]

换个角度想, m m m个列向量表示在坐标系中的 m m m个不同的方向, x 1 , ⋯ , x n x_1,\cdots,x_n x1,⋯,xn表示对应的列向量在自身方向上移动的距离, b b b就是最终要到达的向量,如果在一个三维空间中,要表示空间中的任意一点,需要三个不共线的向量组合才能实现,这就要求提供方向的向量子空间要包含目标向量。
②、考虑方程 A x = b Ax=b Ax=b,其中 A ∈ R m × n A \in R^{m\times n} A∈Rm×n且 r a n k A = m rankA=m rankA=m.可以通过对 n − m n-m n−m个未知数赋任意值并求解其他未知数从而获得解。
由
r
a
n
k
A
=
m
rankA=m
rankA=m我们可以得知它是一个满秩矩阵,系数矩阵的子空间覆盖了整个
R
m
R^{m}
Rm;选取
m
m
m个线性无关的向量,并把剩下
n
−
m
n-m
n−m项的移项:
a
1
x
1
+
a
2
x
2
+
⋯
+
a
n
x
m
=
b
−
a
m
+
1
x
m
+
1
−
⋯
−
x
n
a
n
a_{1}x_1+a_{2}x_2+\cdots+a_{n}x_m=b-a_{m+1}x_{m+1}-\cdots-x_na_n\\
a1x1+a2x2+⋯+anxm=b−am+1xm+1−⋯−xnan
对
x
m
+
1
,
⋯
,
x
n
x_{m+1},\cdots,x_n
xm+1,⋯,xn赋值,并将左边的向量组整合为方阵
B
B
B,可写成:
B
[
x
1
x
2
⋮
x
m
]
=
[
b
−
a
m
+
1
x
m
+
1
−
⋯
−
x
n
a
n
]
B\begin{bmatrix} x_1\\ x_2\\ \vdots\\ x_m\\ \end{bmatrix} =[b-a_{m+1}x_{m+1}-\cdots-x_na_n]
B⎣⎢⎢⎢⎡x1x2⋮xm⎦⎥⎥⎥⎤=[b−am+1xm+1−⋯−xnan]
明显
d
e
t
B
≠
0
detB\ne 0
detB=0,所以左乘
B
−
1
B^{-1}
B−1:
[
x
1
x
2
⋮
x
m
]
=
B
−
1
[
b
−
a
m
+
1
x
m
+
1
−
⋯
−
x
n
a
n
]
\begin{bmatrix} x_1\\ x_2\\ \vdots\\ x_m\\ \end{bmatrix} =B^{-1}[b-a_{m+1}x_{m+1}-\cdots-x_na_n]
⎣⎢⎢⎢⎡x1x2⋮xm⎦⎥⎥⎥⎤=B−1[b−am+1xm+1−⋯−xnan]
1.3 內积和范数
1.3.1 实数
实数
a
a
a的绝对值记为
∣
a
∣
|a|
∣a∣,定义为:
∣
a
∣
=
{
a
a
≥
0
−
a
a
<
0
|a|=\begin{cases} a&a\geq0\\ -a&a<0 \end{cases}
∣a∣={a−aa≥0a<0
有以下公式成立:
1. ∣ a ∣ = ∣ − a ∣ |a|=|-a| ∣a∣=∣−a∣
2. − ∣ a ∣ ≤ a ≤ ∣ a ∣ -|a|\leq a\leq|a| −∣a∣≤a≤∣a∣
3. ∣ a + b ∣ ≤ ∣ a ∣ + ∣ b ∣ |a+b|\leq |a|+|b| ∣a+b∣≤∣a∣+∣b∣
4. ∣ ∣ a ∣ − ∣ b ∣ ∣ ≤ ∣ a − b ∣ ≤ ∣ a ∣ + ∣ b ∣ ||a|-|b||\leq |a-b|\leq |a|+|b| ∣∣a∣−∣b∣∣≤∣a−b∣≤∣a∣+∣b∣
5. ∣ a b ∣ = ∣ a ∣ ∣ b ∣ |ab|=|a||b| ∣ab∣=∣a∣∣b∣
6. 如果 ∣ a ∣ ≤ c |a|\leq c ∣a∣≤c且 ∣ b ∣ ≤ d |b|\leq d ∣b∣≤d,那么有 ∣ a + b ∣ ≤ c + d |a+b|\leq c+d ∣a+b∣≤c+d
7. 不等式 ∣ a ∣ < b |a|<b ∣a∣<b等价于 − b < a < b -b<a<b −b<a<b
8. 不等式 ∣ a ∣ > b |a|>b ∣a∣>b,等价于 a > b a>b a>b或者 − a > b -a>b −a>b
1.3.2 內积
对于
x
,
y
∈
R
n
x,y\in R^n
x,y∈Rn,定义欧式內积为:
<
x
⃗
,
y
⃗
>
=
∑
i
=
1
n
x
i
y
i
=
x
T
y
<\vec x,\vec y>=\sum_{i=1}^{n} x_iy_i=x^Ty
<x,y>=i=1∑nxiyi=xTy
內积是一个实值函数
<
⋅
,
⋅
>
:
R
n
×
R
n
→
R
<\cdot,\cdot >:R^n\times R^n \to R
<⋅,⋅>:Rn×Rn→R,具有以下性质:
1. 非负性: < x , x > ≥ 0 <x,x>\geq 0 <x,x>≥0, 当且仅当 x = 0 x=0 x=0时, < x , x > = 0 <x,x>=0 <x,x>=0
2. 对称性: < x , y > = < y , x > <x,y>=<y,x> <x,y>=<y,x>
3. 可加性: < x + y , z > = < x , z > + < y , z > <x+y,z>=<x,z>+<y,z> <x+y,z>=<x,z>+<y,z>
4. 齐次性:对于任意 r ∈ R r\in R r∈R,总有 < r x , y > = r < x , y > <rx,y>=r<x,y> <rx,y>=r<x,y>成立
给定向量 x , y x,y x,y,如果 < x , y > = 0 <x,y>=0 <x,y>=0, 那么 x x x和 y y y是正交的。(直观反映就是垂直)
1.3.3 范数
向量
x
x
x的欧式范数定义为:
∣
∣
x
∣
∣
=
<
x
,
x
>
=
x
T
x
||x||=\sqrt {<x,x>}=\sqrt {x^Tx}
∣∣x∣∣=<x,x>=xTx
柯西-施瓦茨不等式:对于
R
n
R^n
Rn任意两个向量
x
x
x和
y
y
y:
∣
<
x
,
y
>
∣
≤
∣
∣
x
∣
∣
∣
∣
y
∣
∣
|<x,y>|\leq ||x||||y||
∣<x,y>∣≤∣∣x∣∣∣∣y∣∣

向量 x x x的欧式范数 ∣ ∣ x ∣ ∣ ||x|| ∣∣x∣∣具有如下性质:
1. 非负性: ∣ ∣ x ∣ ∣ ≥ 0 ||x||\geq 0 ∣∣x∣∣≥0, 当且仅当 x = 0 x=0 x=0时, ∣ ∣ x ∣ ∣ = 0 ||x||=0 ∣∣x∣∣=0
2. 齐次性: ∣ ∣ r x ∣ ∣ = ∣ r ∣ ∣ ∣ x ∣ ∣ , r ∈ R ||rx||=|r| ||x||,r\in R ∣∣rx∣∣=∣r∣∣∣x∣∣,r∈R
3. 三角不等式: ∣ ∣ x + y ∣ ∣ ≤ + ∣ ∣ x ∣ ∣ + ∣ ∣ y ∣ ∣ ||x+y||\leq+||x||+||y|| ∣∣x+y∣∣≤+∣∣x∣∣+∣∣y∣∣
欧式范数是通用向量范数的一个特例,通用向量范数是满足非负性、齐次性和三角不等式的任意函数。
p p p范数:
∣
∣
x
∣
∣
p
=
{
(
∣
x
1
∣
p
+
⋯
+
∣
x
n
∣
p
)
1
/
p
1
≤
p
<
∞
m
a
x
{
∣
x
1
∣
,
⋯
,
∣
x
n
∣
}
p
=
∞
||x||_p=\begin{cases} (|x_1|^p+\cdots+|x_n|^p)^{1/p}&1\leq p<\infty\\ max\{|x_1|,\cdots,|x_n|\}&p=\infty \end{cases}
∣∣x∣∣p={(∣x1∣p+⋯+∣xn∣p)1/pmax{∣x1∣,⋯,∣xn∣}1≤p<∞p=∞
(欧式范数就是2范数)
用范数定义连续函数。如果对于所有的 ε > 0 \varepsilon>0 ε>0, 都存在一个 δ > 0 \delta>0 δ>0,使得 ∣ ∣ y − x ∣ ∣ < δ ⇒ ∣ ∣ f ( y ) − f ( x ) ∣ ∣ < ε ||y-x||<\delta\Rightarrow||f(y)-f(x)||<\varepsilon ∣∣y−x∣∣<δ⇒∣∣f(y)−f(x)∣∣<ε, 那么函数 f : R n → R m \textbf{f}:R^n\to R^m f:Rn→Rm,在点 x x x是连续的。
复数空间 C n C^n Cn的內积定义 ∑ i = 1 n x i y ˉ i \sum_{i=1}^{n}x_i\bar{y}_i ∑i=1nxiyˉi,上划线表示共轭, C n C^n Cn上的內积是一个复值函数,具有以下性质:
1. < x , x > ≥ 0 <x,x>\geq0 <x,x>≥0,当且仅当 x = 0 x=0 x=0时, < x , x > = 0 <x,x>=0 <x,x>=0
2. < x , y > = < y , x > <x,y>=<y,x> <x,y>=<y,x>
3. < x + y , z > = < x , z > + < y , z > <x+y,z>=<x,z>+<y,z> <x+y,z>=<x,z>+<y,z>
4. < r x , y > = r < x , y > <rx,y>=r<x,y> <rx,y>=r<x,y>,其中 r ∈ C r\in C r∈C
利用性质1至性质4,可以推出其他的一些性质,如:
<
x
,
r
1
y
+
r
2
y
>
=
r
1
ˉ
<
x
,
y
>
+
r
2
ˉ
<
x
,
z
>
<x,r_1y+r_2y>=\bar{r_1}<x,y>+\bar{r_2}<x,z>
<x,r1y+r2y>=r1ˉ<x,y>+r2ˉ<x,z>
其中
r
1
,
r
2
∈
C
r_1,r_2\in C
r1,r2∈C
变换
建议看这个:https://www.bilibili.com/video/BV1ib411t7YR?from=search&seid=4225163426800625212
2.1 linear map——线性映射
给定函数 ζ : R n → R m \zeta :R^n \to R^m ζ:Rn→Rm,如果
-
- 对于任意 x ∈ R n x\in R^n x∈Rn和 a ∈ R a\in R a∈R,都有 ζ ( a x ) = a ζ ( x ) \zeta(ax)=a\zeta(x) ζ(ax)=aζ(x)
-
- 对于任意 x , y ∈ R n x,y\in R^n x,y∈Rn,都有 ζ ( x + y ) = ζ ( x ) + ζ ( y ) \zeta(x+y)=\zeta(x)+\zeta(y) ζ(x+y)=ζ(x)+ζ(y)
那么称函数 ζ \zeta ζ为一个linear map(这部分的翻译有些问题,以英文为主)
接下来我们分别为
R
n
R^n
Rn和
R
m
R^m
Rm指定一组基,
,令
y
=
ζ
(
x
)
y=\zeta(x)
y=ζ(x),那么上述的
l
i
n
e
a
r
m
a
p
linear\quad map
linearmap就可以使用矩阵表示:
x
′
=
x
1
e
1
+
⋯
+
x
n
e
n
y
′
=
y
1
e
1
+
⋯
+
y
m
e
m
y
′
=
[
A
1
,
1
A
1
,
2
⋯
A
1
,
n
A
2
,
1
A
2
,
2
⋯
A
2
,
n
⋮
⋮
⋱
⋮
A
m
,
1
A
m
,
2
⋯
A
m
,
n
]
x
′
x'=x_1e_1+\cdots+x_ne_n\\ y'=y_1e_1+\cdots+y_me_m\\ \qquad\\ y' =\begin{bmatrix} A_{1,1}&A_{1,2}&\cdots&A_{1,n}\\ A_{2,1}&A_{2,2}&\cdots&A_{2,n}\\ \vdots&\vdots&\ddots&\vdots\\ A_{m,1}&A_{m,2}&\cdots&A_{m,n}\\ \end{bmatrix} x'
x′=x1e1+⋯+xneny′=y1e1+⋯+ymemy′=⎣⎢⎢⎢⎡A1,1A2,1⋮Am,1A1,2A2,2⋮Am,2⋯⋯⋱⋯A1,nA2,n⋮Am,n⎦⎥⎥⎥⎤x′
当两个向量空间指定的都是标准基,那么矩阵
A
A
A满足:
ζ
(
x
)
=
A
x
\zeta(x)=Ax
ζ(x)=Ax
矩阵
A
A
A就是
ζ
\zeta
ζ 的变换矩阵
上面一部分我们考虑的是从 R n → R m R^n\to R^m Rn→Rm的线性变换(线性映射),接下来我们讨论在自身向量空间 R n → R n R^n\to R^n Rn→Rn中的变换。
我们先看一个例子:
给定一个linear map:
ζ
(
x
)
=
8
x
\zeta(x)=8x
ζ(x)=8x,n=2
ζ
(
x
)
=
5
x
=
[
8
0
0
8
]
x
\zeta(x)=5x= \begin{bmatrix} 8&0\\ 0&8 \end{bmatrix} x
ζ(x)=5x=[8008]x
对
x
x
x的每个标准基都进行变换然后合成一个矩阵,这样就确定了一个变换矩阵。
首先,令
{
e
1
,
e
2
,
⋯
,
e
n
}
\{e_1,e_2,\cdots,e_n\}
{e1,e2,⋯,en} 和
{
e
1
′
,
e
2
′
,
⋯
,
e
n
′
}
\{e_1^{'},e_2^{'},\cdots,e_n^{'}\}
{e1′,e2′,⋯,en′}是
R
n
R^n
Rn中的两组基。定义矩阵
T
T
T为
T
=
[
e
1
′
,
e
2
′
,
⋯
,
e
n
′
]
−
1
[
e
1
,
e
2
,
⋯
,
e
n
]
T=[e_1^{'},e_2^{'},\cdots,e_n^{'}]^{-1}[e_1,e_2,\cdots,e_n]
T=[e1′,e2′,⋯,en′]−1[e1,e2,⋯,en]
那么
T
T
T称为从
{
e
1
,
e
2
,
⋯
,
e
n
}
\{e_1,e_2,\cdots,e_n\}
{e1,e2,⋯,en} 到
{
e
1
′
,
e
2
′
,
⋯
,
e
n
′
}
\{e_1^{'},e_2^{'},\cdots,e_n^{'}\}
{e1′,e2′,⋯,en′}的转换矩阵,显然有:
[
e
1
,
e
2
,
⋯
,
e
n
]
=
[
e
1
′
,
e
2
′
,
⋯
,
e
n
′
]
T
[e_1,e_2,\cdots,e_n]=[e_1^{'},e_2^{'},\cdots,e_n^{'}]T
[e1,e2,⋯,en]=[e1′,e2′,⋯,en′]T
即
T
T
T 的第
i
i
i 列是
e
i
e_i
ei 关于
{
e
1
′
,
e
2
′
,
⋯
,
e
n
′
}
\{e_1^{'},e_2^{'},\cdots,e_n^{'}\}
{e1′,e2′,⋯,en′}的坐标向量,可以证明
x
′
=
T
x
x'=Tx
x′=Tx(后续补充证明过程)
考虑线性变换
ζ
:
R
n
→
R
n
\zeta:R^n\to R^n
ζ:Rn→Rn
A
A
A为
ζ
\zeta
ζ关于
{
e
1
,
e
2
,
⋯
,
e
n
}
\{e_1,e_2,\cdots,e_n\}
{e1,e2,⋯,en} 的矩阵表示,B为其关于
{
e
1
′
,
e
2
′
,
⋯
,
e
n
′
}
\{e_1^{'},e_2^{'},\cdots,e_n^{'}\}
{e1′,e2′,⋯,en′}的矩阵表示,令
y
=
A
x
y=Ax
y=Ax且
y
′
=
B
x
′
y'=Bx'
y′=Bx′,因此有
y
′
=
T
y
=
T
A
x
=
B
x
′
=
B
T
x
y'=Ty=TAx=Bx'=BTx
y′=Ty=TAx=Bx′=BTx,从而可得
T
A
=
B
T
或
A
=
T
−
1
B
T
TA=BT或A=T^{-1}BT
TA=BT或A=T−1BT
给定两个矩阵 A 、 B A、B A、B,如果存在一个非奇异矩阵 T T T,使得 A = T − 1 B T A=T^{-1}BT A=T−1BT,那么称 A A A和 B B B是相似的。在不同的基下,相似矩阵对应的线性变换是相同的。
2.2 特征值与特征向量
2.2.1 定义与部分定理
如果
A
A
A是一个
n
×
n
n\times n
n×n实数方阵,存在标量
λ
\lambda
λ (可能是复数)和非零向量
v
v
v,满足:
A
v
=
λ
v
Av=\lambda v
Av=λv
λ
\lambda
λ称为特征值,
v
v
v称为
A
A
A的特征向量。
λ
\lambda
λ为特征值的充要条件是矩阵:
λ
I
−
A
\lambda I-A
λI−A是奇异的,
d
e
t
[
λ
I
−
A
]
=
0
,
I
det[\lambda I-A]=0,I
det[λI−A]=0,I为单位阵,即有
n
n
n次方程成立:
d
e
t
[
λ
I
−
A
]
=
λ
n
+
a
n
−
1
λ
n
−
1
+
⋯
+
a
1
λ
+
a
0
=
0
det[\lambda I-A]=\lambda^{n}+a_{n-1}\lambda^{n-1}+\cdots+a_1\lambda+a_0=0
det[λI−A]=λn+an−1λn−1+⋯+a1λ+a0=0
多项式
d
e
t
[
λ
I
−
A
]
det[\lambda I-A]
det[λI−A]称为
A
A
A的特征多项式,上述方程为特征方程。特征方程必定有
n
n
n个根(其中可能包含相同的根),即为
A
A
A的
n
n
n个特征值。如果
A
A
A有
n
n
n个相异的特征值,那么它也有
n
n
n个线性无关的特征向量。
对于 n × n n\times n n×n的实对称矩阵,其 n n n个特征向量是相互正交的。
证明:此处仅针对 n n n个特征值相异的情况下
假定
A
v
1
=
λ
1
v
1
,
A
v
2
=
λ
2
v
2
Av_1=\lambda _1v_1,Av_2=\lambda _2v_2
Av1=λ1v1,Av2=λ2v2,其中
λ
1
≠
λ
2
\lambda_1\neq\lambda_2
λ1=λ2,那么有
<
A
v
1
,
v
2
>
=
<
λ
1
v
1
,
v
2
>
=
λ
1
<
v
1
,
v
2
>
<Av_1,v_2>=<\lambda_1v_1,v_2 >=\lambda_1<v_1,v_2>
<Av1,v2>=<λ1v1,v2>=λ1<v1,v2>
因为
A
=
A
T
A=A^T
A=AT,所以:
<
A
v
1
,
v
2
>
=
<
v
1
,
A
T
v
2
>
=
<
v
1
,
A
v
2
>
=
λ
2
<
v
1
,
v
2
>
<Av_1,v_2>=<v_1,A^Tv_2 >=<v_1,Av_2>=\lambda_2<v_1,v_2>
<Av1,v2>=<v1,ATv2>=<v1,Av2>=λ2<v1,v2>
因此
λ
1
<
v
1
,
v
2
>
=
λ
2
<
v
1
,
v
2
>
\lambda_1<v_1,v_2>=\lambda_2<v_1,v_2>
λ1<v1,v2>=λ2<v1,v2>
因为
λ
1
≠
λ
1
\lambda_1\neq\lambda_1
λ1=λ1,所以:
<
v
1
,
v
2
>
=
0
<v_1,v_2>=0
<v1,v2>=0
如果
A
A
A是对称阵,那么它的特征向量集合构成
R
n
R^n
Rn空间中的正交基,对这组基进行标准化后,使得每个向量的范数都是1,那么可以定义矩阵:
T
=
[
v
1
,
v
2
,
⋯
,
v
n
]
T=[v_1,v_2,\cdots,v_n]
T=[v1,v2,⋯,vn]
该矩阵满足
T
T
T
=
I
T^TT=I
TTT=I
如果一个矩阵的转置等于它的逆,那么称这个矩阵为正交矩阵。
2.3 正交投影
之前介绍了子空间的概念,接上这个概念,如果
V
V
V是
R
n
R^n
Rn的子空间,那么
V
V
V的正交补记为
V
⊥
V^{\bot}
V⊥,包含与
V
V
V中每一个向量正交的所有向量,因此
V
⊥
=
{
x
:
v
T
x
=
0
,
v
∈
V
}
V^\bot=\{x:v^Tx=0,v\in V\}
V⊥={x:vTx=0,v∈V}
V
V
V的正交补也是一个子空间,
V
V
V与
V
⊥
V^\bot
V⊥能够张成
R
n
R^n
Rn,也就是说对于每一个
v
∈
R
n
v\in R^n
v∈Rn,都可以唯一的表示为:
x
=
x
1
+
x
2
(
x
1
∈
V
,
x
2
∈
V
⊥
)
x=x_1+x_2\qquad(x_1\in V,x_2\in V^\bot)
x=x1+x2(x1∈V,x2∈V⊥)
上式称为
x
x
x相对于
V
V
V的正交分解,
x
1
,
x
2
x_1,x_2
x1,x2称为
x
x
x在子空间
V
,
V
⊥
V,V^\bot
V,V⊥上的正交投影。
R
n
=
V
⨁
V
⊥
R^n=V\bigoplus V^\bot
Rn=V⨁V⊥表示
R
n
R^n
Rn是
V
,
V
⊥
V,V^\bot
V,V⊥的直和,对于所有的
x
∈
R
n
x\in R^n
x∈Rn,都有
P
x
∈
V
且
x
−
P
x
∈
V
⊥
Px\in V且x-Px\in V^\bot
Px∈V且x−Px∈V⊥,则称线性变换
P
P
P是
V
V
V上的正交投影算子。
引入两个概念。矩阵 A ( A ∈ R m × n ) A(A\in R^{m\times n}) A(A∈Rm×n)的值域空间和零空间(像空间和核)
值域空间(像空间):
R
(
A
)
≜
{
A
x
:
x
∈
R
n
}
R(A)\triangleq \{ Ax:x\in R^n \}
R(A)≜{Ax:x∈Rn}
零空间(核):
N
(
A
)
≜
{
x
∈
R
n
:
A
x
=
0
}
N(A)\triangleq \{x\in R^n:Ax=0 \}
N(A)≜{x∈Rn:Ax=0}
很明显,这两个都是子空间。
2.4 二次型函数
定义为
f
:
R
n
→
R
f:R^n \to R
f:Rn→R,具有以下形式的函数:
f
(
x
)
=
x
T
Q
x
f(x)=x^TQx
f(x)=xTQx
其中
Q
Q
Q是
n
×
n
n\times n
n×n的实数矩阵,不失一般性,假定
Q
Q
Q是对称矩阵,即
Q
=
Q
T
Q=Q^T
Q=QT,即使它不是对称的,可以通过:
Q
0
=
Q
0
T
=
1
2
(
Q
+
Q
T
)
Q_0=Q^T_0=\frac{1}{2} (Q+Q^T)
Q0=Q0T=21(Q+QT)
如果
x
T
Q
x
>
0
x^TQx>0
xTQx>0,那么二次型是正定的,对于所有的
x
T
Q
x
≥
0
x^TQx\geq0
xTQx≥0,二次型是半正定的。
x
T
Q
x
<
x^TQx<
xTQx<二次型是负定的,
x
T
Q
x
≤
0
x^TQx\leq0
xTQx≤0二次型是半负定的。
16万+

被折叠的 条评论
为什么被折叠?



