损失函数
逻辑回归通常使用对数损失函数(Log Loss),也称为逻辑损失或交叉熵损失(Cross-Entropy Loss)。对于单个样本,对数损失函数定义如下:
对于样本 (x, y) ,其中 ( y ∈ 0 , 1 ) ( y \in {0, 1} ) (y∈0,1) 是真实标签,模型预测为 y ^ = σ ( z ) ) \hat{y} = \sigma(z) ) y^=σ(z)),其中 σ \sigma σ是sigmoid函数, z = w T x + b z = w^Tx + b z=wTx+b是线性模型的预测值,( w ) 是权重向量,( b ) 是偏置项。
单个样本的对数损失函数是:
L
(
y
,
y
^
)
=
−
[
y
log
(
y
^
)
+
(
1
−
y
)
log
(
1
−
y
^
)
]
L(y, \hat{y}) = -[y \log(\hat{y}) + (1 - y) \log(1 - \hat{y})]
L(y,y^)=−[ylog(y^)+(1−y)log(1−y^)]
目标函数
在逻辑回归中,目标函数通常是最小化所有训练样本上的平均损失,也就是最小化经验风险。如果我们有 ( N ) 个训练样本,则目标函数(通常称为成本函数)是:
J
(
w
,
b
)
=
1
N
∑
i
=
1
N
L
(
y
(
i
)
,
y
^
(
i
)
)
J(w, b) = \frac{1}{N}\sum_{i=1}^{N} L(y^{(i)}, \hat{y}^{(i)})
J(w,b)=N1∑i=1NL(y(i),y^(i))
通常目标函数也包括正则化项,如L1或L2正则化,以防止过拟合和改善模型的泛化能力,这部分被称为 结构风险。带有L2正则化的目标函数如下:
J
reg
(
w
,
b
)
=
1
N
[
∑
i
=
1
N
L
(
y
(
i
)
,
y
^
(
i
)
)
+
λ
2
∣
∣
w
∣
∣
2
]
J_{\text{reg}}(w, b) = \frac{1}{N}[\sum_{i=1}^{N} L(y^{(i)}, \hat{y}^{(i)}) + \frac{\lambda}{2} ||w||^2]
Jreg(w,b)=N1[∑i=1NL(y(i),y^(i))+2λ∣∣w∣∣2]
其中, λ \lambda λ是正则化项的强度参数, ∣ ∣ w ∣ ∣ 2 ||w||^2 ∣∣w∣∣2 是权重向量 ( w ) 的L2范数的平方。【 ∣ ∣ w ∣ ∣ p ||w||_p ∣∣w∣∣p表示w的p范数, L 2 L2 L2 范数通常省略下标2】。
在训练过程中,通过梯度下降或其他优化算法最小化目标函数,从而找到使损失最小化的权重 ( w ) 和偏置 ( b ) 的值。