数学表达式魔训

本文是一篇关于提升数学表达式理解和使用的训练教程,内容涵盖第一天的概论、集合论、向量与矩阵,第二天的二元关系和函数,以及第三天的相关练习。文章强调了数学表达式在学术写作中的重要性,提供了抄写和理解公式的方法,同时也指出了常见错误和注意事项。训练包括符号统一、矩阵乘法、函数关系、模2同余关系、粗糙集理论等概念的探讨,并配有相关例题和作业。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

引言

你好!这里是引言,随着课程的推进将会不断丰富此段内容。

1. 第一天

在这段中,主要讲经过一天的学习,自己的收获以及体验,并且对学到的东西学以致用,简单说就是写一些小例子。当然,还要完成一些小挑战。先说一下这一天的收获吧,知识性的东西在 @minfanphd 文档里面都可以看见,因此不在这里进行重复叙述。

概论

首先,数学语言的重要性毋庸置疑,它可以说是最简洁的一种语言,能够非常简单的将我们要讲述的事情表达清楚。也是因为我们的式子 (equation) 写的不够好才有了这次的魔鬼培训。 如果对这些比较恐惧 – 包括看到式子写不出代码或者写出了代码但写不出式子,模仿无疑是有效的一种方法。对这那些大佬写的书,将他们的公式抄写几遍,俗话说书读百遍其义自见,那么公式多抄几遍,也就有了自己的体会。

另外有几个需要特别注意的地方:
1. 一篇论文中的格式要统一,也就是 @minfanphd 常说的内部系统不能出错。
2. equation 以及 expression才是我们应当写进论文的。
3. 不要写 “xxx 提出了” 以及 “xxx说”。
4. 学到了 \left 和 \right 的使用方法(将在下文使用)。

集合论

1. \mathrm 的使用,使用和不使用的效果为: a \mathrm{a} a a {a} a.
2. 这个 ∅ \emptyset 才是空集,这个 ϕ \phi ϕ不是.
3. A ∪ B \mathbf{A} \cup \mathbf{B} AB ⋃ i = 1 n A i \bigcup_{i=1}^n \mathbf{A}_i i=1nAi A ∩ B \mathbf{A} \cap \mathbf{B} AB ⋂ i = 1 n B i \bigcap_{i=1}^n \mathbf{B}_i i=1nBi A ∖ B \mathbf{A} \setminus \mathbf{B} AB A ‾ \overline{A} A B ‾ \underline{B} B.
4. A \mathbf{A} A的幂集为: 2 A = { B ∣ B ⊆ A } 2^{\mathbf{A}} = \{\mathbf{B} \vert \mathbf{B} \subseteq \mathbf{A}\} 2A={BBA}.
5. 笛卡尔积 A × B = { ( a , b ) ∣ a ∈ A , b ∈ B } \mathbf{A} \times \mathbf{B} = \{(a, b) \vert a \in \mathbf{A}, b \in \mathbf{B}\} A×B={(a,b)aA,bB}.
6. 一维数据的空间为 R \mathbb{R} R, 二维为 R 2 \mathbb{R}^2 R2, n n n维为 R n \mathbb{R}^n Rn.

向量与矩阵

1. 这是行向量 x = ( x 1 , … , x n ) = [ x 1 , … , x n ] ∈ R n \mathbf{x} = (x_1, \dots, x_n) = [x_1, \dots, x_n] \in \mathbb{R}_n x=(x1,,xn)=[x1,,xn]Rn
2. 这是列向量 x T = ( x 1 , … , x n ) T = [ x 1 ; …   ; x n ] \mathbf{x}^\mathrm{T} = (x_1, \dots, x_n)^\mathrm{T} = [x_1; \dots; x_n] xT=(x1,,xn)T=[x1;;xn].
3. 假设矩阵有 n n n m m m列: X = [ x i j ] n × m ∈ R n × m X = [x_{ij}]_{n \times m} \in \mathbb{R}^{n \times m} X=[xij]n×mRn×m.

作业

学习、使用数学表达式时的困难

  1. 经常遇到的是符号不统一的问题。如在单标签的有监督学习中,数据集 D = ( X , Y ) \mathbf{D} = (\mathbf{X}, \mathbf{Y}) D=(X,Y),其中 X = ( x 1 , … , x n ) \mathbf{X} = (\mathbf{x}_1, \dots, \mathbf{x}_n) X=(x1,,xn) Y = ( y 1 , … , y n ) \mathbf{Y} = (y_1, \dots, y_n) Y=(y1,,yn)。这是在上文中写出来的,写到后面可能就会变成 X = ( m 1 , … , m n ) \mathbf{X} = (\mathbf{m}_1, \dots, \mathbf{m}_n) X=(m1,,mn),写的比较随心所欲。

  2. 其次是别人的式子写的太复杂,看起来比较头疼。这里的复杂并不是公式本身有多复杂,而是变量太多,许多的符号意义不明。例如在式子(1) 和式子 (2) 中,掺杂着大量未知符号 h , μ , π , a h, \mu, \pi, a h,μ,π,a等,就很难理解。

T r , h μ , π Q ( x , a ) = h ( E τ ∼ T [ h − 1 ( Q ( x , a ) ) + ∑ t ≥ 0 γ t ( ∏ s = 1 t c s ) δ t h ] ) , (1) T_{r, h}^{\mu, \pi} Q(x, a) = h\left( \mathbb{E}_{\tau \sim T} \left[ h^{-1} (Q(x, a)) + \sum_{t \ge 0}^{} \gamma^t \left( \prod_{s=1}^t c_s \right) \delta_t^h \right] \right) \tag{1}, Tr,hμ,πQ(x,a)=h(EτT[h1(Q(x,a))+t0γt(s=1tcs)δth]),(1)

δ t h = r t + γ ∑ a ∈ A π ( a ∣ X t + 1 ) h − 1 ( Q ( X t + 1 , a ) ) − h − 1 ( Q ( X t , A t ) ) . (2) \delta_t^h = r_t + \gamma \sum_{a \in A} \pi (a \vert X_{t+1}) h^{-1}(Q(X_{t+1}, a)) - h^{-1}(Q(X_t, A_t)) \tag{2}. δth=rt+γaAπ(aXt+1)h1(Q(Xt+1,a))h1(Q(Xt,At)).(2)

  1. 考虑问题不够全面,例如某一问题的优化目标应当是使得损失函数 L \mathcal{L} L 最小。
    L = ∑ i = 1 m ∑ j = 1 n ( y i , j ′ − f ( y i , j ) ) 2 + λ 1 2 ∑ y ′ ∣ y ′ ∣ (3) \mathcal{L} = \sum_{i=1}^m \sum_{j=1}^n \left( y^{\prime}_{i,j} - f(y_{i,j}) \right) ^2 + \frac{\lambda_1}{2} \sum_{y^{\prime}} \vert y^{\prime} \vert \tag{3} L=i=1mj=1n(yi,jf(yi,j))2+2λ1yy(3)
    但由于考虑的不完整,所以丢失了一个维度,导致上述损失函数变为 (4) 所示。
    L = ∑ j = 1 n ( y j ′ − f ( y j ) ) 2 + λ 1 2 ∑ y ′ ∣ y ′ ∣ (4) \mathcal{L} = \sum_{j=1}^n \left( y^{\prime}_{j} - f(y_{j}) \right) ^2 + \frac{\lambda_1}{2} \sum_{y^{\prime}} \vert y^{\prime} \vert \tag{4} L=j=1n(yjf(yj))2+2λ1yy(4)

抄写与答题

  1. A = { 3 , 5 } \mathbf{A} = \{3, 5\} A={3,5}, 要求写出 2 A 2^{\mathbf{A}} 2A.
    2 ∣ A ∣ = 4 2 A = { ∅ , { 3 } , { 5 } , { 3 , 5 } } 2^\mathbf{\vert A \vert} = 4 \\ 2^\mathbf{A} = \{\emptyset, \{3\}, \{5\}, \{3, 5\}\} 2A=42A={,{3},{5},{3,5}}
  2. 展开 2 ∅ 2^{\emptyset} 2.
    2 ∣ ∅ ∣ = 0 2 ∅ = { ∅ } 2^\mathbf{\vert \emptyset \vert} = 0 \\ 2^\mathbf{\emptyset} = \{\emptyset\} 2=02={}
  3. A = { 5 , 6 , 7 , 8 , 9 } \mathbf{A} = \{5, 6, 7, 8, 9\} A={5,6,7,8,9}, 写出 A \mathbf{A} A 的其它两种表示法.
    A = { x ∈ N ∣ 4 < x < 10 } A = [ 5..9 ] \mathbf{A} = \{x \in N \vert 4 < x < 10\} \\ \mathbf{A} = [5 .. 9] A={xN4<x<10}A=[5..9]
  4. 抄写式子已经放在上一部分.
  5. 矩阵相乘的小例子
    [ 1 3 5 7 6 8 ] × [ 1 1 1 1 1 1 ] = [ 4 4 4 12 12 12 14 14 14 ] \begin{bmatrix} 1 & 3 \\ 5 & 7 \\ 6 & 8 \end{bmatrix} \times \begin{bmatrix} 1 & 1 & 1 \\ 1 & 1 & 1 \end{bmatrix} = \begin{bmatrix} 4 & 4 & 4 \\ 12 & 12 & 12 \\ 14 & 14 & 14 \end{bmatrix} 156378×[111111]=412144121441214

找错

1. 第4页的等式 (5) m-th,没有写成 m m m-th。
2. 第4页的等式 (5) 下边,只解释了 ∣ . ∣ \vert . \vert . 以及 ∣ ∣ . ∣ ∣ 1 \vert \vert . \vert \vert_1 .1,没有解释(5)中出现的 ∣ ∣ . ∣ ∣ 2 \vert \vert . \vert \vert_2 .2

2. 第二天

二元关系

1. 定义: Let A \mathbf{A} A and B \mathbf{B} B be sets. Any R ⊆ A × B \mathbf{R} \subseteq \mathbf{A} \times \mathbf{B} RA×B is called a binary relation.
2. 两个关系的乘法: R 1 R 2 = { ( x , y ) ∣ ∃ ( x , z ) ∈ R 1  and  ( z , y ) ∈ R 2 } \mathbf{R}_1\mathbf{R}_2 = \{(x, y) \vert \exists (x, z) \in \mathbf{R}_1 \textrm{ and } (z, y) \in \mathbf{R}_2\} R1R2={(x,y)(x,z)R1 and (z,y)R2}.
3. 这是正闭包: R + = ⋃ i = 1 ∣ A ∣ R i \mathbf{R}^+ = \bigcup_{i=1}^{\vert A \vert} \mathbf{R}^i R+=i=1ARi.
4. 这是克林闭包: R ∗ = R + ∪ A 0 \mathbf{R}^* = \mathbf{R}^+ \cup \mathbf{A}^0 R=R+A0.

函数

1. 通常,函数关系是直接给出,例如 f ( x ) = x + 1 f(x) = x + 1 f(x)=x+1,但在机器学习领域,我们需要从数据 D \mathbf{D} D 中学习出 f f f, 即 R m → R \mathbb{R}^m \to \mathbb{R} RmR.
2. 特别的,函数 f ( x ) = x + 1 f(x) = x + 1 f(x)=x+1,也可以看成 R \mathbb{R} R上的二元关系,我的理解是:该关系更像是等于关系和小于关系的结合,它像等于关系,但又不是等于本身,同时像小于关系,属于某一个区域。
3. 正负2应用 \pm, 即 ± \pm ± 2.

作业

  1. A = { 1 , 2 , 5 , 8 , 9 } \mathbf{A} = \{ 1 , 2 , 5 , 8 , 9 \} A={1,2,5,8,9}, 写出 A \mathbf{A} A上的 “模 2 同余” 关系及相应的划分.
    R = { ( a , b ) ∈ A × A ∣ a m o d    2 = b m o d    2 } R = { ( 1 , 1 ) , ( 1 , 5 ) , ( 1 , 9 ) , ( 5 , 5 ) , ( 5 , 9 ) , ( 9 , 9 ) , ( 2 , 2 ) , ( 2 , 8 ) , ( 8 , 8 ) } P = { { 1 , 5 , 9 } , { 2 , 8 } } \mathbf{R} = \{(a, b) \in \mathbf{A} \times \mathbf{A} \vert a \mod 2 = b \mod 2\} \\ \mathbf{R} = \{(1, 1) , (1, 5) , (1, 9) , (5, 5) , (5, 9) , (9, 9) , (2, 2) , (2, 8) , (8, 8)\} \\ \mathcal{P} = \{\{1, 5, 9 \}, \{2, 8 \} \} R={(a,b)A×Aamod2=bmod2}R={(1,1),(1,5),(1,9),(5,5),(5,9),(9,9),(2,2),(2,8),(8,8)}P={{1,5,9},{2,8}}
  2. A = { 1 , 2 , 5 , 8 , 9 } \mathbf{A} = \{ 1 , 2 , 5 , 8 , 9 \} A={1,2,5,8,9},定义两个关系 R 1 , R 2 \mathbf{R}_1, \mathbf{R}_2 R1,R2,并计算 R 1 ∘ R 2 , R 1 + , R 1 ∗ \mathbf{R}_1 \circ \mathbf{R}_2, \mathbf{R}^+_1, \mathbf{R}^*_1 R1R2,R1+,R1.
    R 1 = { ( a , b ) ∈ A × A ∣ a m o d    2 = b m o d    2 } R 1 = { ( 1 , 5 ) , ( 1 , 9 ) , ( 5 , 9 ) , ( 2 , 8 ) } R 2 = { ( a , b ) ∈ A 2 ∣ a = b } R 2 = { ( 1 , 1 ) , ( 2 , 2 ) , ( 5 , 5 ) , ( 8 , 8 ) , ( 9 , 9 ) } \mathbf{R}_1 = \{(a, b) \in \mathbf{A} \times \mathbf{A} \vert a \mod 2 = b \mod 2\} \\ \mathbf{R}_1 = \{(1, 5), (1, 9), (5, 9), (2, 8)\} \\ \mathbf{R}_2 = \{(a, b) \in \mathbf{A}^2 \vert a = b \} \\ \mathbf{R}_2 = \{(1, 1), (2, 2), (5, 5), (8, 8), (9, 9) \} R1={(a,b)A×Aamod2=bmod2}R1={(1,5),(1,9),(5,9),(2,8)}R2={(a,b)A2a=b}R2={(1,1),(2,2),(5,5),(8,8),(9,9)}
    R 1 ∘ R 2 = { ( 1 , 5 ) , ( 1 , 9 ) , ( 5 , 9 ) , ( 2 , 8 ) , …   } \mathbf{R}_1 \circ \mathbf{R}_2 = \{(1, 5), (1, 9), (5, 9) , (2, 8), \dots \} R1R2={(1,5),(1,9),(5,9),(2,8),}
    R 1 + = { ( 1 , 5 ) , ( 1 , 9 ) , ( 5 , 9 ) , ( 2 , 8 ) } } \mathbf{R}^+_1 = \{(1, 5), (1, 9), (5, 9) , (2, 8)\}\} R1+={(1,5),(1,9),(5,9),(2,8)}}
    R 1 ∗ = { ( 1 , 5 ) , ( 1 , 9 ) , ( 5 , 9 ) , ( 2 , 8 ) , ( 1 , 1 ) , ( 2 , 2 ) , ( 5 , 5 ) , ( 8 , 8 ) , ( 9 , 9 ) } \mathbf{R}^*_1 = \{(1, 5), (1, 9), (5, 9) , (2, 8), (1, 1), (2, 2), (5, 5), (8, 8), (9, 9)\} R1={(1,5),(1,9),(5,9),(2,8),(1,1),(2,2),(5,5),(8,8),(9,9)}
  3. 粗糙集
    粗糙集是用来研究不完整数据,不精确知识的表达、学习,归纳等的一套理论。
    给定一个粗糙集 Y \mathbf{Y} Y 以及原始数据的划分结果 X 1 , … , X n \mathbf{X}_1, \dots, \mathbf{X}_n X1,,Xn, 如果 Y ∩ X i \mathbf{Y} \cap \mathbf{X}_i YXi 不为 ∅ \emptyset . 则 X i \mathbf{X}_i Xi Y \mathbf{Y} Y 的一个上近似. 若 X j ⊆ Y \mathbf{X}_j \subseteq \mathbf{Y} XjY, 则 X j \mathbf{X}_j Xj Y \mathbf{Y} Y 的一个下近似.
  4. 我所理解的函数是从基础开始,比如最开始一元一次函数 f ( x ) = x + 1 f(x) = x +1 f(x)=x+1, 进阶的一元二次函数 g ( x ) = x 2 + 1 g(x) = x^2 + 1 g(x)=x2+1,以及多元函数 h ( x , y ) = ( x + y ) 2 + x + y h(x, y) = (x + y)^ 2 + x + y h(x,y)=(x+y)2+x+y. 上述所写的例子均是一对一的关系,即一个或一组自变量只能对应一个函数值,类似于 x 2 + y 2 = 1 x^2 + y^2 = 1 x2+y2=1这样的就不是函数, 只能叫做圆的表达式。
  5. 令矩阵 A \mathbf{A} A =
    [ 1 2 3 − 1 − 2 5 ] \begin{bmatrix} 1 & 2 & 3 \\ -1 & -2 & 5 \end{bmatrix} [112235]
    求该矩阵的各个范数。
    ∣ ∣ A ∣ ∣ 0 = 6 \vert \vert A \vert \vert_0 = 6 A0=6
    ∣ ∣ A ∣ ∣ 1 = 1 + 2 + 3 + 1 + 2 + 5 = 14 \vert \vert A \vert \vert_1 = 1 + 2 + 3 + 1 + 2 + 5 = 14 A1=1+2+3+1+2+5=14
    ∣ ∣ A ∣ ∣ 2 2 = 14 + 30 = 44 \vert \vert A \vert \vert_2^2 = 14 + 30 = 44 A22=14+30=44
    ∣ ∣ A ∣ ∣ ∞ = 5 \vert \vert A \vert \vert_\infty = 5 A=5
  6. 解释参数
    min ⁡ ∑ ( i , j ) ∈ Ω ( f ( x i , t j ) − r i j ) 2 \min \sum_{(i, j) \in \Omega} (f(\mathbf{x}_i, \mathbf{t}_j) - r_{ij})^2 min(i,j)Ω(f(xi,tj)rij)2
    其中, x i \mathbf{x}_i xi表示用户信息表 X = ( x 1 , … , x n ) T \mathbf{X} = (\mathbf{x}_1, \dots, \mathbf{x}_n)^\mathrm{T} X=(x1,,xn)T 中的一条记录, 用户信息表是 n × d u n \times d_u n×du的矩阵,其中 d u d_u du 代表用户的属性个数. t j \mathbf{t}_j tj表示商品信息表 T = ( t 1 , … , t m ) T \mathbf{T} = (\mathbf{t}_1, \dots, \mathbf{t}_m)^\mathrm{T} T=(t1,,tm)T 中的一条记录, 商品信息表是 m × d t m \times d_t m×dt 的矩阵, 其中 d t d_t dt 代表商品的属性个数. r i j r_{ij} rij 为评分表 R = ( r i j ) n × m \mathbf{R} = (r_{ij})_{n \times m} R=(rij)n×m 中的一条记录, 其取值为 { 0 , 1 } \{0, 1 \} {0,1} (是否看过) 或者 { 1 , 2 , 3 , 4 , 5 } \{1, 2, 3, 4, 5 \} {1,2,3,4,5} (五个等级).

3. 第三天

  1. 令向量 A = ( 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 ) \mathbf{A} = (1, 2, 3, 4, 5, 6, 7, 8, 9, 10) A=(1,2,3,4,5,6,7,8,9,10).
    ∑ i = 1 5 A 2 ∗ i = 30. \sum_{i=1}^5 A_{2 * i} = 30. i=15A2i=30.
    ∑ i = 1 10 A i = 55. \sum_{i=1}^{10} A_{i} = 55. i=110Ai=55.
    ∏ i = 1 5 A 2 ∗ i = 3840. \prod_{i=1}^{5} A_{2 * i} = 3840. i=15A2i=3840.
    ∫ − 2 2 3 x 2 d x = 16. \int_{-2}^{2} 3x^2 \mathrm{d}x = 16. 223x2dx=16.
  2. 三重累加前段时间刚刚用过, 大致是: 现在有三类数据 D = ( d 1 , d 2 , d 3 ) \mathbf{D} = (\mathbf{d}_1, \mathbf{d}_2, \mathbf{d}_3) D=(d1,d2,d3), 其中 d m = ( x 1 , … , x n ) \mathbf{d}_m = (x_1, \dots, x_n) dm=(x1,,xn). 现在需要从这三类数据中分别抽取一个样本,再将它们的值进行相加得到最终的结果, 在每三类中进行选择就是一个三重循环.
    ∑ i = 1 n ∑ j = 1 n ∑ k = 1 n ( d 1 i + d 2 j + d 3 k ) \sum_{i = 1}^n \sum_{j = 1}^n \sum_{k = 1}^n (d_{1i} + d_{2j} + d_{3k}) i=1nj=1nk=1n(d1i+d2j+d3k)
  3. 对于定积分 ∫ − 2 2 3 x 2 d x \int_{-2}^{2} 3x^2 \mathrm{d}x 223x2dx, 手算的结果为16,下列程序的结果为 16.08.
integration = 0
delta_x = 0.01
x = np.linspace(-2, 2, 400)
for i in x:
	integration += 3 * (i ** 2) * delta_x
print(integration)
  1. Logistics本来是一个回归方法,但主要是用来做二分类。其实现机制是通过回归计算出一个值,通过这个值来判断该样本属于哪一类, 例如对于样本 x i x_i xi 的回归值为 0.8, 则它会被分为 1 类. 它的特点主要有:用回归做分类、回归值处于0-1之间,可当做概率、实现简单、具有可解释性、在空间中划分超平面.
  2. 优化目标
    P ( y i ∣ x i ; w ) = P ( y i = 1 ∣ x i ; w ) y i ( 1 − P ( y i = 0 ∣ x i ; w ) ) 1 − y i P(y_i \vert \mathbf{x}_i ; \mathbf{w}) = P(y_i = 1 \vert \mathbf{x}_i ; \mathbf{w})^{y_i} (1 - P(y_i = 0 \vert \mathbf{x}_i ; \mathbf{w}))^{1 - y_i} P(yixi;w)=P(yi=1xi;w)yi(1P(yi=0xi;w))1yi
    使用极大似然估计将概率转化为连乘的形式.
    arg max ⁡ w L ( w ) = ∏ i = 1 n P ( y i ∣ x i ; w ) \argmax_\mathbf{w} L(\mathbf{w}) = \prod_{i = 1}^n P(y_i \vert \mathbf{x}_i ; \mathbf{w}) wargmaxL(w)=i=1nP(yixi;w)
    同极大似然估计法一样,连乘不方便求解,因此两边取对数.
    log ⁡ L ( w ) = ∑ i = 1 n log ⁡ P ( y i ∣ x i ; w ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) + ( 1 − y i ) log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) 1 − P ( y i = 1 ∣ x i ; w ) + log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i x i w − log ⁡ ( 1 + e x i w ) \begin{aligned} \log L(\mathbf{w}) & = \sum_{i = 1}^n \log P(y_i \vert \mathbf{x}_i; \mathbf{w}) \\ & = \sum_{i = 1}^n y_i \log P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w}) + (1 - y_i) \log(1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})) \\ & = \sum_{i = 1}^n y_i \log \frac{P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})}{1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})} + \log (1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})) \\ & = \sum_{i = 1}^n y_i \mathbf{x}_i \mathbf{w} - \log (1 + e^{\mathbf{x}_i \mathbf{w}}) \end{aligned} logL(w)=i=1nlogP(yixi;w)=i=1nyilogP(yi=1xi;w)+(1yi)log(1P(yi=1xi;w))=i=1nyilog1P(yi=1xi;w)P(yi=1xi;w)+log(1P(yi=1xi;w))=i=1nyixiwlog(1+exiw)
    使用梯度下降求 w \mathbf{w} w.
    w t + 1 = w t − α ∂ log ⁡ L ( w ) ∂ w \mathbf{w}^{t+1} = \mathbf{w}^t - \alpha \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} wt+1=wtαwlogL(w)
    其中 - 代表负梯度的方向, α \alpha α 表示每次迭代的步长, ∂ log ⁡ L ( w ) ∂ w \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} wlogL(w) 则表示该点处的梯度.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值