引言
你好!这里是引言,随着课程的推进将会不断丰富此段内容。
1. 第一天
在这段中,主要讲经过一天的学习,自己的收获以及体验,并且对学到的东西学以致用,简单说就是写一些小例子。当然,还要完成一些小挑战。先说一下这一天的收获吧,知识性的东西在 @minfanphd 文档里面都可以看见,因此不在这里进行重复叙述。
概论
首先,数学语言的重要性毋庸置疑,它可以说是最简洁的一种语言,能够非常简单的将我们要讲述的事情表达清楚。也是因为我们的式子 (equation) 写的不够好才有了这次的魔鬼培训。 如果对这些比较恐惧 – 包括看到式子写不出代码或者写出了代码但写不出式子,模仿无疑是有效的一种方法。对这那些大佬写的书,将他们的公式抄写几遍,俗话说书读百遍其义自见,那么公式多抄几遍,也就有了自己的体会。
另外有几个需要特别注意的地方:
1. 一篇论文中的格式要统一,也就是 @minfanphd 常说的内部系统不能出错。
2. equation 以及 expression才是我们应当写进论文的。
3. 不要写 “xxx 提出了” 以及 “xxx说”。
4. 学到了 \left 和 \right 的使用方法(将在下文使用)。
集合论
1. \mathrm 的使用,使用和不使用的效果为:
a
\mathrm{a}
a、
a
{a}
a.
2. 这个
∅
\emptyset
∅才是空集,这个
ϕ
\phi
ϕ不是.
3.
A
∪
B
\mathbf{A} \cup \mathbf{B}
A∪B、
⋃
i
=
1
n
A
i
\bigcup_{i=1}^n \mathbf{A}_i
⋃i=1nAi、
A
∩
B
\mathbf{A} \cap \mathbf{B}
A∩B、
⋂
i
=
1
n
B
i
\bigcap_{i=1}^n \mathbf{B}_i
⋂i=1nBi、
A
∖
B
\mathbf{A} \setminus \mathbf{B}
A∖B、
A
‾
\overline{A}
A、
B
‾
\underline{B}
B.
4.
A
\mathbf{A}
A的幂集为:
2
A
=
{
B
∣
B
⊆
A
}
2^{\mathbf{A}} = \{\mathbf{B} \vert \mathbf{B} \subseteq \mathbf{A}\}
2A={B∣B⊆A}.
5. 笛卡尔积
A
×
B
=
{
(
a
,
b
)
∣
a
∈
A
,
b
∈
B
}
\mathbf{A} \times \mathbf{B} = \{(a, b) \vert a \in \mathbf{A}, b \in \mathbf{B}\}
A×B={(a,b)∣a∈A,b∈B}.
6. 一维数据的空间为
R
\mathbb{R}
R, 二维为
R
2
\mathbb{R}^2
R2,
n
n
n维为
R
n
\mathbb{R}^n
Rn.
向量与矩阵
1. 这是行向量
x
=
(
x
1
,
…
,
x
n
)
=
[
x
1
,
…
,
x
n
]
∈
R
n
\mathbf{x} = (x_1, \dots, x_n) = [x_1, \dots, x_n] \in \mathbb{R}_n
x=(x1,…,xn)=[x1,…,xn]∈Rn
2. 这是列向量
x
T
=
(
x
1
,
…
,
x
n
)
T
=
[
x
1
;
…
;
x
n
]
\mathbf{x}^\mathrm{T} = (x_1, \dots, x_n)^\mathrm{T} = [x_1; \dots; x_n]
xT=(x1,…,xn)T=[x1;…;xn].
3. 假设矩阵有
n
n
n行
m
m
m列:
X
=
[
x
i
j
]
n
×
m
∈
R
n
×
m
X = [x_{ij}]_{n \times m} \in \mathbb{R}^{n \times m}
X=[xij]n×m∈Rn×m.
作业
学习、使用数学表达式时的困难
-
经常遇到的是符号不统一的问题。如在单标签的有监督学习中,数据集 D = ( X , Y ) \mathbf{D} = (\mathbf{X}, \mathbf{Y}) D=(X,Y),其中 X = ( x 1 , … , x n ) \mathbf{X} = (\mathbf{x}_1, \dots, \mathbf{x}_n) X=(x1,…,xn)、 Y = ( y 1 , … , y n ) \mathbf{Y} = (y_1, \dots, y_n) Y=(y1,…,yn)。这是在上文中写出来的,写到后面可能就会变成 X = ( m 1 , … , m n ) \mathbf{X} = (\mathbf{m}_1, \dots, \mathbf{m}_n) X=(m1,…,mn),写的比较随心所欲。
-
其次是别人的式子写的太复杂,看起来比较头疼。这里的复杂并不是公式本身有多复杂,而是变量太多,许多的符号意义不明。例如在式子(1) 和式子 (2) 中,掺杂着大量未知符号 h , μ , π , a h, \mu, \pi, a h,μ,π,a等,就很难理解。
T r , h μ , π Q ( x , a ) = h ( E τ ∼ T [ h − 1 ( Q ( x , a ) ) + ∑ t ≥ 0 γ t ( ∏ s = 1 t c s ) δ t h ] ) , (1) T_{r, h}^{\mu, \pi} Q(x, a) = h\left( \mathbb{E}_{\tau \sim T} \left[ h^{-1} (Q(x, a)) + \sum_{t \ge 0}^{} \gamma^t \left( \prod_{s=1}^t c_s \right) \delta_t^h \right] \right) \tag{1}, Tr,hμ,πQ(x,a)=h(Eτ∼T[h−1(Q(x,a))+t≥0∑γt(s=1∏tcs)δth]),(1)
δ t h = r t + γ ∑ a ∈ A π ( a ∣ X t + 1 ) h − 1 ( Q ( X t + 1 , a ) ) − h − 1 ( Q ( X t , A t ) ) . (2) \delta_t^h = r_t + \gamma \sum_{a \in A} \pi (a \vert X_{t+1}) h^{-1}(Q(X_{t+1}, a)) - h^{-1}(Q(X_t, A_t)) \tag{2}. δth=rt+γa∈A∑π(a∣Xt+1)h−1(Q(Xt+1,a))−h−1(Q(Xt,At)).(2)
- 考虑问题不够全面,例如某一问题的优化目标应当是使得损失函数
L
\mathcal{L}
L 最小。
L = ∑ i = 1 m ∑ j = 1 n ( y i , j ′ − f ( y i , j ) ) 2 + λ 1 2 ∑ y ′ ∣ y ′ ∣ (3) \mathcal{L} = \sum_{i=1}^m \sum_{j=1}^n \left( y^{\prime}_{i,j} - f(y_{i,j}) \right) ^2 + \frac{\lambda_1}{2} \sum_{y^{\prime}} \vert y^{\prime} \vert \tag{3} L=i=1∑mj=1∑n(yi,j′−f(yi,j))2+2λ1y′∑∣y′∣(3)
但由于考虑的不完整,所以丢失了一个维度,导致上述损失函数变为 (4) 所示。
L = ∑ j = 1 n ( y j ′ − f ( y j ) ) 2 + λ 1 2 ∑ y ′ ∣ y ′ ∣ (4) \mathcal{L} = \sum_{j=1}^n \left( y^{\prime}_{j} - f(y_{j}) \right) ^2 + \frac{\lambda_1}{2} \sum_{y^{\prime}} \vert y^{\prime} \vert \tag{4} L=j=1∑n(yj′−f(yj))2+2λ1y′∑∣y′∣(4)
抄写与答题
- 令
A
=
{
3
,
5
}
\mathbf{A} = \{3, 5\}
A={3,5}, 要求写出
2
A
2^{\mathbf{A}}
2A.
2 ∣ A ∣ = 4 2 A = { ∅ , { 3 } , { 5 } , { 3 , 5 } } 2^\mathbf{\vert A \vert} = 4 \\ 2^\mathbf{A} = \{\emptyset, \{3\}, \{5\}, \{3, 5\}\} 2∣A∣=42A={∅,{3},{5},{3,5}} - 展开
2
∅
2^{\emptyset}
2∅.
2 ∣ ∅ ∣ = 0 2 ∅ = { ∅ } 2^\mathbf{\vert \emptyset \vert} = 0 \\ 2^\mathbf{\emptyset} = \{\emptyset\} 2∣∅∣=02∅={∅} - 令
A
=
{
5
,
6
,
7
,
8
,
9
}
\mathbf{A} = \{5, 6, 7, 8, 9\}
A={5,6,7,8,9}, 写出
A
\mathbf{A}
A 的其它两种表示法.
A = { x ∈ N ∣ 4 < x < 10 } A = [ 5..9 ] \mathbf{A} = \{x \in N \vert 4 < x < 10\} \\ \mathbf{A} = [5 .. 9] A={x∈N∣4<x<10}A=[5..9] - 抄写式子已经放在上一部分.
- 矩阵相乘的小例子
[ 1 3 5 7 6 8 ] × [ 1 1 1 1 1 1 ] = [ 4 4 4 12 12 12 14 14 14 ] \begin{bmatrix} 1 & 3 \\ 5 & 7 \\ 6 & 8 \end{bmatrix} \times \begin{bmatrix} 1 & 1 & 1 \\ 1 & 1 & 1 \end{bmatrix} = \begin{bmatrix} 4 & 4 & 4 \\ 12 & 12 & 12 \\ 14 & 14 & 14 \end{bmatrix} ⎣⎡156378⎦⎤×[111111]=⎣⎡412144121441214⎦⎤
找错
1. 第4页的等式 (5) m-th,没有写成
m
m
m-th。
2. 第4页的等式 (5) 下边,只解释了
∣
.
∣
\vert . \vert
∣.∣ 以及
∣
∣
.
∣
∣
1
\vert \vert . \vert \vert_1
∣∣.∣∣1,没有解释(5)中出现的
∣
∣
.
∣
∣
2
\vert \vert . \vert \vert_2
∣∣.∣∣2。
2. 第二天
二元关系
1. 定义: Let
A
\mathbf{A}
A and
B
\mathbf{B}
B be sets. Any
R
⊆
A
×
B
\mathbf{R} \subseteq \mathbf{A} \times \mathbf{B}
R⊆A×B is called a binary relation.
2. 两个关系的乘法:
R
1
R
2
=
{
(
x
,
y
)
∣
∃
(
x
,
z
)
∈
R
1
and
(
z
,
y
)
∈
R
2
}
\mathbf{R}_1\mathbf{R}_2 = \{(x, y) \vert \exists (x, z) \in \mathbf{R}_1 \textrm{ and } (z, y) \in \mathbf{R}_2\}
R1R2={(x,y)∣∃(x,z)∈R1 and (z,y)∈R2}.
3. 这是正闭包:
R
+
=
⋃
i
=
1
∣
A
∣
R
i
\mathbf{R}^+ = \bigcup_{i=1}^{\vert A \vert} \mathbf{R}^i
R+=⋃i=1∣A∣Ri.
4. 这是克林闭包:
R
∗
=
R
+
∪
A
0
\mathbf{R}^* = \mathbf{R}^+ \cup \mathbf{A}^0
R∗=R+∪A0.
函数
1. 通常,函数关系是直接给出,例如
f
(
x
)
=
x
+
1
f(x) = x + 1
f(x)=x+1,但在机器学习领域,我们需要从数据
D
\mathbf{D}
D 中学习出
f
f
f, 即
R
m
→
R
\mathbb{R}^m \to \mathbb{R}
Rm→R.
2. 特别的,函数
f
(
x
)
=
x
+
1
f(x) = x + 1
f(x)=x+1,也可以看成
R
\mathbb{R}
R上的二元关系,我的理解是:该关系更像是等于关系和小于关系的结合,它像等于关系,但又不是等于本身,同时像小于关系,属于某一个区域。
3. 正负2应用 \pm, 即
±
\pm
± 2.
作业
- 令
A
=
{
1
,
2
,
5
,
8
,
9
}
\mathbf{A} = \{ 1 , 2 , 5 , 8 , 9 \}
A={1,2,5,8,9}, 写出
A
\mathbf{A}
A上的 “模 2 同余” 关系及相应的划分.
R = { ( a , b ) ∈ A × A ∣ a m o d 2 = b m o d 2 } R = { ( 1 , 1 ) , ( 1 , 5 ) , ( 1 , 9 ) , ( 5 , 5 ) , ( 5 , 9 ) , ( 9 , 9 ) , ( 2 , 2 ) , ( 2 , 8 ) , ( 8 , 8 ) } P = { { 1 , 5 , 9 } , { 2 , 8 } } \mathbf{R} = \{(a, b) \in \mathbf{A} \times \mathbf{A} \vert a \mod 2 = b \mod 2\} \\ \mathbf{R} = \{(1, 1) , (1, 5) , (1, 9) , (5, 5) , (5, 9) , (9, 9) , (2, 2) , (2, 8) , (8, 8)\} \\ \mathcal{P} = \{\{1, 5, 9 \}, \{2, 8 \} \} R={(a,b)∈A×A∣amod2=bmod2}R={(1,1),(1,5),(1,9),(5,5),(5,9),(9,9),(2,2),(2,8),(8,8)}P={{1,5,9},{2,8}} - 令
A
=
{
1
,
2
,
5
,
8
,
9
}
\mathbf{A} = \{ 1 , 2 , 5 , 8 , 9 \}
A={1,2,5,8,9},定义两个关系
R
1
,
R
2
\mathbf{R}_1, \mathbf{R}_2
R1,R2,并计算
R
1
∘
R
2
,
R
1
+
,
R
1
∗
\mathbf{R}_1 \circ \mathbf{R}_2, \mathbf{R}^+_1, \mathbf{R}^*_1
R1∘R2,R1+,R1∗.
R 1 = { ( a , b ) ∈ A × A ∣ a m o d 2 = b m o d 2 } R 1 = { ( 1 , 5 ) , ( 1 , 9 ) , ( 5 , 9 ) , ( 2 , 8 ) } R 2 = { ( a , b ) ∈ A 2 ∣ a = b } R 2 = { ( 1 , 1 ) , ( 2 , 2 ) , ( 5 , 5 ) , ( 8 , 8 ) , ( 9 , 9 ) } \mathbf{R}_1 = \{(a, b) \in \mathbf{A} \times \mathbf{A} \vert a \mod 2 = b \mod 2\} \\ \mathbf{R}_1 = \{(1, 5), (1, 9), (5, 9), (2, 8)\} \\ \mathbf{R}_2 = \{(a, b) \in \mathbf{A}^2 \vert a = b \} \\ \mathbf{R}_2 = \{(1, 1), (2, 2), (5, 5), (8, 8), (9, 9) \} R1={(a,b)∈A×A∣amod2=bmod2}R1={(1,5),(1,9),(5,9),(2,8)}R2={(a,b)∈A2∣a=b}R2={(1,1),(2,2),(5,5),(8,8),(9,9)}
R 1 ∘ R 2 = { ( 1 , 5 ) , ( 1 , 9 ) , ( 5 , 9 ) , ( 2 , 8 ) , … } \mathbf{R}_1 \circ \mathbf{R}_2 = \{(1, 5), (1, 9), (5, 9) , (2, 8), \dots \} R1∘R2={(1,5),(1,9),(5,9),(2,8),…}
R 1 + = { ( 1 , 5 ) , ( 1 , 9 ) , ( 5 , 9 ) , ( 2 , 8 ) } } \mathbf{R}^+_1 = \{(1, 5), (1, 9), (5, 9) , (2, 8)\}\} R1+={(1,5),(1,9),(5,9),(2,8)}}
R 1 ∗ = { ( 1 , 5 ) , ( 1 , 9 ) , ( 5 , 9 ) , ( 2 , 8 ) , ( 1 , 1 ) , ( 2 , 2 ) , ( 5 , 5 ) , ( 8 , 8 ) , ( 9 , 9 ) } \mathbf{R}^*_1 = \{(1, 5), (1, 9), (5, 9) , (2, 8), (1, 1), (2, 2), (5, 5), (8, 8), (9, 9)\} R1∗={(1,5),(1,9),(5,9),(2,8),(1,1),(2,2),(5,5),(8,8),(9,9)} - 粗糙集
粗糙集是用来研究不完整数据,不精确知识的表达、学习,归纳等的一套理论。
给定一个粗糙集 Y \mathbf{Y} Y 以及原始数据的划分结果 X 1 , … , X n \mathbf{X}_1, \dots, \mathbf{X}_n X1,…,Xn, 如果 Y ∩ X i \mathbf{Y} \cap \mathbf{X}_i Y∩Xi 不为 ∅ \emptyset ∅. 则 X i \mathbf{X}_i Xi 为 Y \mathbf{Y} Y 的一个上近似. 若 X j ⊆ Y \mathbf{X}_j \subseteq \mathbf{Y} Xj⊆Y, 则 X j \mathbf{X}_j Xj 为 Y \mathbf{Y} Y 的一个下近似. - 我所理解的函数是从基础开始,比如最开始一元一次函数 f ( x ) = x + 1 f(x) = x +1 f(x)=x+1, 进阶的一元二次函数 g ( x ) = x 2 + 1 g(x) = x^2 + 1 g(x)=x2+1,以及多元函数 h ( x , y ) = ( x + y ) 2 + x + y h(x, y) = (x + y)^ 2 + x + y h(x,y)=(x+y)2+x+y. 上述所写的例子均是一对一的关系,即一个或一组自变量只能对应一个函数值,类似于 x 2 + y 2 = 1 x^2 + y^2 = 1 x2+y2=1这样的就不是函数, 只能叫做圆的表达式。
- 令矩阵
A
\mathbf{A}
A =
[ 1 2 3 − 1 − 2 5 ] \begin{bmatrix} 1 & 2 & 3 \\ -1 & -2 & 5 \end{bmatrix} [1−12−235]
求该矩阵的各个范数。
∣ ∣ A ∣ ∣ 0 = 6 \vert \vert A \vert \vert_0 = 6 ∣∣A∣∣0=6
∣ ∣ A ∣ ∣ 1 = 1 + 2 + 3 + 1 + 2 + 5 = 14 \vert \vert A \vert \vert_1 = 1 + 2 + 3 + 1 + 2 + 5 = 14 ∣∣A∣∣1=1+2+3+1+2+5=14
∣ ∣ A ∣ ∣ 2 2 = 14 + 30 = 44 \vert \vert A \vert \vert_2^2 = 14 + 30 = 44 ∣∣A∣∣22=14+30=44
∣ ∣ A ∣ ∣ ∞ = 5 \vert \vert A \vert \vert_\infty = 5 ∣∣A∣∣∞=5 - 解释参数
min ∑ ( i , j ) ∈ Ω ( f ( x i , t j ) − r i j ) 2 \min \sum_{(i, j) \in \Omega} (f(\mathbf{x}_i, \mathbf{t}_j) - r_{ij})^2 min(i,j)∈Ω∑(f(xi,tj)−rij)2
其中, x i \mathbf{x}_i xi表示用户信息表 X = ( x 1 , … , x n ) T \mathbf{X} = (\mathbf{x}_1, \dots, \mathbf{x}_n)^\mathrm{T} X=(x1,…,xn)T 中的一条记录, 用户信息表是 n × d u n \times d_u n×du的矩阵,其中 d u d_u du 代表用户的属性个数. t j \mathbf{t}_j tj表示商品信息表 T = ( t 1 , … , t m ) T \mathbf{T} = (\mathbf{t}_1, \dots, \mathbf{t}_m)^\mathrm{T} T=(t1,…,tm)T 中的一条记录, 商品信息表是 m × d t m \times d_t m×dt 的矩阵, 其中 d t d_t dt 代表商品的属性个数. r i j r_{ij} rij 为评分表 R = ( r i j ) n × m \mathbf{R} = (r_{ij})_{n \times m} R=(rij)n×m 中的一条记录, 其取值为 { 0 , 1 } \{0, 1 \} {0,1} (是否看过) 或者 { 1 , 2 , 3 , 4 , 5 } \{1, 2, 3, 4, 5 \} {1,2,3,4,5} (五个等级).
3. 第三天
- 令向量
A
=
(
1
,
2
,
3
,
4
,
5
,
6
,
7
,
8
,
9
,
10
)
\mathbf{A} = (1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
A=(1,2,3,4,5,6,7,8,9,10).
∑ i = 1 5 A 2 ∗ i = 30. \sum_{i=1}^5 A_{2 * i} = 30. i=1∑5A2∗i=30.
∑ i = 1 10 A i = 55. \sum_{i=1}^{10} A_{i} = 55. i=1∑10Ai=55.
∏ i = 1 5 A 2 ∗ i = 3840. \prod_{i=1}^{5} A_{2 * i} = 3840. i=1∏5A2∗i=3840.
∫ − 2 2 3 x 2 d x = 16. \int_{-2}^{2} 3x^2 \mathrm{d}x = 16. ∫−223x2dx=16. - 三重累加前段时间刚刚用过, 大致是: 现在有三类数据
D
=
(
d
1
,
d
2
,
d
3
)
\mathbf{D} = (\mathbf{d}_1, \mathbf{d}_2, \mathbf{d}_3)
D=(d1,d2,d3), 其中
d
m
=
(
x
1
,
…
,
x
n
)
\mathbf{d}_m = (x_1, \dots, x_n)
dm=(x1,…,xn). 现在需要从这三类数据中分别抽取一个样本,再将它们的值进行相加得到最终的结果, 在每三类中进行选择就是一个三重循环.
∑ i = 1 n ∑ j = 1 n ∑ k = 1 n ( d 1 i + d 2 j + d 3 k ) \sum_{i = 1}^n \sum_{j = 1}^n \sum_{k = 1}^n (d_{1i} + d_{2j} + d_{3k}) i=1∑nj=1∑nk=1∑n(d1i+d2j+d3k) - 对于定积分 ∫ − 2 2 3 x 2 d x \int_{-2}^{2} 3x^2 \mathrm{d}x ∫−223x2dx, 手算的结果为16,下列程序的结果为 16.08.
integration = 0
delta_x = 0.01
x = np.linspace(-2, 2, 400)
for i in x:
integration += 3 * (i ** 2) * delta_x
print(integration)
- Logistics本来是一个回归方法,但主要是用来做二分类。其实现机制是通过回归计算出一个值,通过这个值来判断该样本属于哪一类, 例如对于样本 x i x_i xi 的回归值为 0.8, 则它会被分为 1 类. 它的特点主要有:用回归做分类、回归值处于0-1之间,可当做概率、实现简单、具有可解释性、在空间中划分超平面.
- 优化目标
P ( y i ∣ x i ; w ) = P ( y i = 1 ∣ x i ; w ) y i ( 1 − P ( y i = 0 ∣ x i ; w ) ) 1 − y i P(y_i \vert \mathbf{x}_i ; \mathbf{w}) = P(y_i = 1 \vert \mathbf{x}_i ; \mathbf{w})^{y_i} (1 - P(y_i = 0 \vert \mathbf{x}_i ; \mathbf{w}))^{1 - y_i} P(yi∣xi;w)=P(yi=1∣xi;w)yi(1−P(yi=0∣xi;w))1−yi
使用极大似然估计将概率转化为连乘的形式.
arg max w L ( w ) = ∏ i = 1 n P ( y i ∣ x i ; w ) \argmax_\mathbf{w} L(\mathbf{w}) = \prod_{i = 1}^n P(y_i \vert \mathbf{x}_i ; \mathbf{w}) wargmaxL(w)=i=1∏nP(yi∣xi;w)
同极大似然估计法一样,连乘不方便求解,因此两边取对数.
log L ( w ) = ∑ i = 1 n log P ( y i ∣ x i ; w ) = ∑ i = 1 n y i log P ( y i = 1 ∣ x i ; w ) + ( 1 − y i ) log ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i log P ( y i = 1 ∣ x i ; w ) 1 − P ( y i = 1 ∣ x i ; w ) + log ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i x i w − log ( 1 + e x i w ) \begin{aligned} \log L(\mathbf{w}) & = \sum_{i = 1}^n \log P(y_i \vert \mathbf{x}_i; \mathbf{w}) \\ & = \sum_{i = 1}^n y_i \log P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w}) + (1 - y_i) \log(1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})) \\ & = \sum_{i = 1}^n y_i \log \frac{P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})}{1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})} + \log (1 - P(y_i = 1 \vert \mathbf{x}_i; \mathbf{w})) \\ & = \sum_{i = 1}^n y_i \mathbf{x}_i \mathbf{w} - \log (1 + e^{\mathbf{x}_i \mathbf{w}}) \end{aligned} logL(w)=i=1∑nlogP(yi∣xi;w)=i=1∑nyilogP(yi=1∣xi;w)+(1−yi)log(1−P(yi=1∣xi;w))=i=1∑nyilog1−P(yi=1∣xi;w)P(yi=1∣xi;w)+log(1−P(yi=1∣xi;w))=i=1∑nyixiw−log(1+exiw)
使用梯度下降求 w \mathbf{w} w.
w t + 1 = w t − α ∂ log L ( w ) ∂ w \mathbf{w}^{t+1} = \mathbf{w}^t - \alpha \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} wt+1=wt−α∂w∂logL(w)
其中 - 代表负梯度的方向, α \alpha α 表示每次迭代的步长, ∂ log L ( w ) ∂ w \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} ∂w∂logL(w) 则表示该点处的梯度.