上篇博文介绍了《机器学习之支持向量机》后发现利用到了梯度、凸优化、拉格朗日对偶性等数学问题。而且凸优化是本科非数学专业学不到的科目,所以这篇博文就要和大家分享一下机器学习中常用的数学概念。
博文重点:
- 线性代数。
- 凸优化。
- 概率论(机器学习中的数学(中))。
- 机器学习中常用的不等式(机器学习中的数学(下))。
1、线性代数
这部分介绍一些机器学习中常用的线性代数知识点包括向量的范数和矩阵的范数及其相关性质。
1.1 向量和范数
这一部分将通过 H \mathbb H H来定义一个维数可能是无限的向量空间。
1.1.1 范数
定义1.1: 映射 Φ : H → R + \Phi:\mathbb H\rightarrow\mathbb R_+ Φ:H→R+被认为是 H \mathbb H H上的范数如果它满足如下公理:
- 非负性(definiteness): ∀ x ∈ H , Φ ( x ) = 0 ⇔ x = 0 , Φ ( x ) > 0 ⇔ x ≠ 0 \forall \mathbf x\in\mathbb H,\Phi(\mathbf x)=0\Leftrightarrow\mathbf x=\mathbf 0,\Phi(\mathbf x)>0\Leftrightarrow\mathbf x\ne0 ∀x∈H,Φ(x)=0⇔x=0,Φ(x)>0⇔x=0;
- 同质性(齐次性)(homogeneity): ∀ x ∈ H , ∀ α ∈ R , Φ ( α x ) = ∣ α ∣ Φ ( x ) \forall \mathbf x\in\mathbb H,\forall{\alpha}\in{\mathbb{R}},\Phi(\alpha\mathbf{x})=|\alpha|\Phi(\mathbf x) ∀x∈H,∀α∈R,Φ(αx)=∣α∣Φ(x);
- 三角不等式(triangle inequality): ∀ x , y ∈ H , Φ ( x + y ) ≤ Φ ( x ) + Φ ( y ) \forall \mathbf x,\mathbf y\in\mathbb H,\Phi(\mathbf x+\mathbf y)\le\Phi(\mathbf x)+\Phi(\mathbf y) ∀x,y∈H,Φ(x+y)≤Φ(x)+Φ(y)。
对任意 p ≥ 1 p\ge1 p≥1, L p L_p Lp范数可以通过下述定义:
∀ x ∈ R N , ∣ ∣ x ∣ ∣ p = ( ∑ j = 1 N ∣ x j ∣ p ) 1 / p . \forall{\mathbf x}\in{\mathbb R}^N,||\mathbf x||_p=\Big(\sum_{j=1}^N|x_j|^p\Big)^{1/p}. ∀x∈RN,∣∣x∣∣p=(j=1∑N∣xj∣p)1/p.
L 1 , L 2 L_1,L_2 L1,L2和 L ∞ L_\infty L∞范数是用的最多的范数,其中 ∣ ∣ x ∣ ∣ ∞ = max j ∈ [ N ] ∣ x j ∣ ||\mathbf x||_\infty=\max_{j\in[N]}|x_j| ∣∣x∣∣∞=maxj∈[N]∣xj∣。下述不等式都是成立的:
∣ ∣ x ∣ ∣ 2 ≤ ∣ ∣ x ∣ ∣ 1 ≤ N ∣ ∣ x ∣ ∣ 2 ∣ ∣ x ∣ ∣ ∞ ≤ ∣ ∣ x ∣ ∣ 2 ≤ N ∣ ∣ x ∣ ∣ ∞ ∣ ∣ x ∣ ∣ ∞ ≤ ∣ ∣ x ∣ ∣ 1 ≤ N ∣ ∣ x ∣ ∣ ∞ . ||\mathbf x||_2\le||\mathbf x||_1\le\sqrt{N}||\mathbf x||_2\\ ||\mathbf x||_\infty\le||\mathbf x||_2\le\sqrt{N}||\mathbf x||_\infty\\ ||\mathbf x||_\infty\le||\mathbf x||_1\le N||\mathbf x||_\infty. ∣∣x∣∣2≤∣∣x∣∣1≤N∣∣x∣∣2∣∣x∣∣∞≤∣∣x∣∣2≤N∣∣x∣∣∞∣∣x∣∣∞≤∣∣x∣∣1≤N∣∣x∣∣∞.
定义1.2:希尔伯特空间(Hilbert space): 希尔伯特空间是由向量空间的内积组成的 ⟨ ⋅ , ⋅ ⟩ \langle\cdot,\cdot \rangle ⟨⋅,⋅⟩,内积导出一个范数,定义如下:
∀ x ∈ H , ∣ ∣ x ∣ ∣ H = ⟨ x , x ⟩ . \forall\mathbf x\in\mathbb H,||\mathbf x||_{\mathbb H}=\sqrt{\langle\mathbf x,\mathbf x \rangle}. ∀x∈H,∣∣x∣∣H=⟨x,x⟩.
1.1.2 对偶范数(Dual norms)
定义1.3: 让 ∣ ∣ ⋅ ∣ ∣ ||\cdot|| ∣∣⋅∣∣表示一个在 R N \mathbb R^N RN上的范数。与 ∣ ∣ ⋅ ∣ ∣ ||\cdot|| ∣∣⋅∣∣相关的对偶范数 ∣ ∣ ⋅ ∣ ∣ ∗ ||\cdot||_\ast ∣∣⋅∣∣∗是如下定义:
∀ y ∈ R N , ∣ ∣ y ∣ ∣ ∗ = sup ∣ ∣ x ∣ ∣ = 1 ∣ ⟨ y ⋅ x ⟩ ∣ . \forall \mathbf y\in{\mathbb R^N},||\mathbf y||_\ast=\sup_{||\mathbf x||=1}|\langle \mathbf y\cdot\mathbf x\rangle|. ∀y∈RN,∣∣y∣∣∗=∣∣x∣∣=1sup∣⟨y⋅x⟩∣.
对任意的 p , q ≥ 1 p,q\ge1 p,q≥1是共轭的(conjugate)也就是 1 p + 1 q = 1 \frac{1}{p}+\frac{1}{q}=1 p1+q1=1,则有 L p L_p Lp和 L q L_q Lq范数互为对偶范数。一般来说, L 2 L_2 L2的对偶范数是 L 2 L_2 L2, L 1 L_1 L1的对偶范数是 L ∞ L_\infty L∞。
命题1.4:Hölder不等式: 让 p , q ≥ 1 p,q\ge1 p,q≥1是共轭的,即 1 p + 1 q = 1 \frac{1}{p}+\frac{1}{q}=1 p1+q1=1。对所有的 x , y ∈ R N x,y\in{\mathbb R}^N x,y∈RN,
∣ ⟨ x , y ⟩ ∣ ≤ ∣ ∣ x ∣ ∣ p ∣ ∣ y ∣ ∣ q , |\langle\mathbf x,\mathbf y\rangle|\le||\mathbf x||_p||\mathbf y||_q, ∣⟨x,y⟩∣≤∣∣x∣∣p∣∣y∣∣q,
当对于所有的 i ∈ [ N ] i\in{[N]} i∈[N]时, ∣ y i ∣ = ∣ x i ∣ p − 1 |y_i|=|x_i|^{p-1} ∣yi∣=∣xi∣p−1时,上式取等。
推论1.5:柯西-施瓦兹不等式(Cauchy-Schwarz inequality): 对所有的 x , y ∈ R N \mathbf x,\mathbf y\in{\mathbb R}^N x,y∈R