机器学习中的数学(上)

本文是机器学习数学系列的第一部分,主要涵盖线性代数的基础知识,如向量的范数、矩阵的范数和奇异值分解,以及凸优化的初步概念,包括可微和无约束最优化。文章详细解释了相关定义和性质,为理解机器学习的数学基础奠定了基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  上篇博文介绍了《机器学习之支持向量机》后发现利用到了梯度、凸优化、拉格朗日对偶性等数学问题。而且凸优化是本科非数学专业学不到的科目,所以这篇博文就要和大家分享一下机器学习中常用的数学概念。

  博文重点:

  • 线性代数。
  • 凸优化。
  • 概率论(机器学习中的数学(中))。
  • 机器学习中常用的不等式(机器学习中的数学(下))。

1、线性代数

  这部分介绍一些机器学习中常用的线性代数知识点包括向量的范数和矩阵的范数及其相关性质。

1.1 向量和范数

  这一部分将通过 H \mathbb H H来定义一个维数可能是无限的向量空间。

1.1.1 范数

定义1.1: 映射 Φ : H → R + \Phi:\mathbb H\rightarrow\mathbb R_+ Φ:HR+被认为是 H \mathbb H H上的范数如果它满足如下公理:

  • 非负性(definiteness): ∀ x ∈ H , Φ ( x ) = 0 ⇔ x = 0 , Φ ( x ) > 0 ⇔ x ≠ 0 \forall \mathbf x\in\mathbb H,\Phi(\mathbf x)=0\Leftrightarrow\mathbf x=\mathbf 0,\Phi(\mathbf x)>0\Leftrightarrow\mathbf x\ne0 xH,Φ(x)=0x=0,Φ(x)>0x=0
  • 同质性(齐次性)(homogeneity): ∀ x ∈ H , ∀ α ∈ R , Φ ( α x ) = ∣ α ∣ Φ ( x ) \forall \mathbf x\in\mathbb H,\forall{\alpha}\in{\mathbb{R}},\Phi(\alpha\mathbf{x})=|\alpha|\Phi(\mathbf x) xH,αR,Φ(αx)=αΦ(x)
  • 三角不等式(triangle inequality): ∀ x , y ∈ H , Φ ( x + y ) ≤ Φ ( x ) + Φ ( y ) \forall \mathbf x,\mathbf y\in\mathbb H,\Phi(\mathbf x+\mathbf y)\le\Phi(\mathbf x)+\Phi(\mathbf y) x,yH,Φ(x+y)Φ(x)+Φ(y)

对任意 p ≥ 1 p\ge1 p1 L p L_p Lp范数可以通过下述定义:

∀ x ∈ R N , ∣ ∣ x ∣ ∣ p = ( ∑ j = 1 N ∣ x j ∣ p ) 1 / p . \forall{\mathbf x}\in{\mathbb R}^N,||\mathbf x||_p=\Big(\sum_{j=1}^N|x_j|^p\Big)^{1/p}. xRN,xp=(j=1Nxjp)1/p.

L 1 , L 2 L_1,L_2 L1,L2 L ∞ L_\infty L范数是用的最多的范数,其中 ∣ ∣ x ∣ ∣ ∞ = max ⁡ j ∈ [ N ] ∣ x j ∣ ||\mathbf x||_\infty=\max_{j\in[N]}|x_j| x=maxj[N]xj。下述不等式都是成立的:

∣ ∣ x ∣ ∣ 2 ≤ ∣ ∣ x ∣ ∣ 1 ≤ N ∣ ∣ x ∣ ∣ 2 ∣ ∣ x ∣ ∣ ∞ ≤ ∣ ∣ x ∣ ∣ 2 ≤ N ∣ ∣ x ∣ ∣ ∞ ∣ ∣ x ∣ ∣ ∞ ≤ ∣ ∣ x ∣ ∣ 1 ≤ N ∣ ∣ x ∣ ∣ ∞ . ||\mathbf x||_2\le||\mathbf x||_1\le\sqrt{N}||\mathbf x||_2\\ ||\mathbf x||_\infty\le||\mathbf x||_2\le\sqrt{N}||\mathbf x||_\infty\\ ||\mathbf x||_\infty\le||\mathbf x||_1\le N||\mathbf x||_\infty. x2x1N x2xx2N xxx1Nx.

定义1.2:希尔伯特空间(Hilbert space): 希尔伯特空间是由向量空间的内积组成的 ⟨ ⋅ , ⋅ ⟩ \langle\cdot,\cdot \rangle ,,内积导出一个范数,定义如下:

∀ x ∈ H , ∣ ∣ x ∣ ∣ H = ⟨ x , x ⟩ . \forall\mathbf x\in\mathbb H,||\mathbf x||_{\mathbb H}=\sqrt{\langle\mathbf x,\mathbf x \rangle}. xH,xH=x,x .

1.1.2 对偶范数(Dual norms)

定义1.3: ∣ ∣ ⋅ ∣ ∣ ||\cdot|| 表示一个在 R N \mathbb R^N RN上的范数。与 ∣ ∣ ⋅ ∣ ∣ ||\cdot|| 相关的对偶范数 ∣ ∣ ⋅ ∣ ∣ ∗ ||\cdot||_\ast 是如下定义:

∀ y ∈ R N , ∣ ∣ y ∣ ∣ ∗ = sup ⁡ ∣ ∣ x ∣ ∣ = 1 ∣ ⟨ y ⋅ x ⟩ ∣ . \forall \mathbf y\in{\mathbb R^N},||\mathbf y||_\ast=\sup_{||\mathbf x||=1}|\langle \mathbf y\cdot\mathbf x\rangle|. yRNy=x=1supyx.

对任意的 p , q ≥ 1 p,q\ge1 p,q1共轭的(conjugate)也就是 1 p + 1 q = 1 \frac{1}{p}+\frac{1}{q}=1 p1+q1=1,则有 L p L_p Lp L q L_q Lq范数互为对偶范数。一般来说, L 2 L_2 L2的对偶范数是 L 2 L_2 L2 L 1 L_1 L1的对偶范数是 L ∞ L_\infty L

命题1.4:Hölder不等式 p , q ≥ 1 p,q\ge1 p,q1是共轭的,即 1 p + 1 q = 1 \frac{1}{p}+\frac{1}{q}=1 p1+q1=1。对所有的 x , y ∈ R N x,y\in{\mathbb R}^N x,yRN

∣ ⟨ x , y ⟩ ∣ ≤ ∣ ∣ x ∣ ∣ p ∣ ∣ y ∣ ∣ q , |\langle\mathbf x,\mathbf y\rangle|\le||\mathbf x||_p||\mathbf y||_q, x,yxpyq,

当对于所有的 i ∈ [ N ] i\in{[N]} i[N]时, ∣ y i ∣ = ∣ x i ∣ p − 1 |y_i|=|x_i|^{p-1} yi=xip1时,上式取等。

推论1.5:柯西-施瓦兹不等式(Cauchy-Schwarz inequality) 对所有的 x , y ∈ R N \mathbf x,\mathbf y\in{\mathbb R}^N x,yR

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值