分类任务定义
∙
\bullet
∙ 给定训练数据
D
=
{
x
i
,
y
i
}
i
=
1
N
D=\{{\mathbf x_{i}, y_{i}}\}_{i=1}^N
D={xi,yi}i=1N,其中N为训练样本的数目,i为样本索引,
x
i
\mathbf x_{i}
xi为第i个样本的输入特征,
y
i
y_{i}
yi为对应的输出/响应,
y
i
∈
σ
,
σ
=
{
1
,
.
.
.
,
C
}
y_{i} \in \sigma,\sigma=\{1,...,C\}
yi∈σ,σ={1,...,C}。注意这里用的符号sigma,PPT用的其实不是sigma,没找到那个符号的写法。
∙
\bullet
∙ 分类:根据训练样本D,学习一个从输入x到输出y的映射f。
∙
\bullet
∙ 对新的测试数据x,用学习到的f对其进行预测:
y
^
=
f
(
x
)
\hat y = f(x)
y^=f(x)。
分类任务的损失函数
∙
\bullet
∙ 0/1损失:预测类别正确损失为0,否则为1,记为
L
(
y
,
y
^
)
=
{
0
y
=
y
^
1
y
≠
y
^
L(y, \hat y) = \begin{cases}\\0 \space\space\space y=\hat y \\1 \space\space\space y \neq \hat y \end{cases}
L(y,y^)=⎩
⎨
⎧0 y=y^1 y=y^但0/1损失不连续,优化计算不方便。
∙
\bullet
∙ 寻找其他替代损失函数(Surrogate Loss Function),通常是凸函数,计算方便面,且和0/1损失是一致的。
∙
\bullet
∙ 回归中用的L2损失可以吗?L2损失,对应评价指标MSE,不是一种很好的损失,若
y
^
\hat y
y^能限制在比较小的范围内还好,否则就不是一个能很好的替代0/1损失的函数,如果要用,勉强也还可以。我还是不懂为何说L2不是很合适。
Logistic损失
∙
\bullet
∙ Logistic回归模型:
y
∣
x
y|\mathbf x
y∣x ~
B
e
r
n
o
u
l
l
i
(
μ
(
x
)
)
Bernoulli(\mu(x))
Bernoulli(μ(x))
p
(
y
∣
x
;
μ
(
x
)
)
=
μ
(
x
)
y
(
1
−
μ
(
x
)
)
1
−
y
p(y|\mathbf x;\mu(x)) = \mu(x)^y(1-\mu(x))^{1-y}
p(y∣x;μ(x))=μ(x)y(1−μ(x))1−y
μ
(
x
)
=
σ
(
w
T
x
)
\mu(x) = \sigma(\mathbf w^T\mathbf x)
μ(x)=σ(wTx)
∙
\bullet
∙ Log似然损失为:
ζ
(
μ
)
=
l
o
g
p
(
D
)
=
l
o
g
∏
i
=
1
N
p
(
y
i
∣
x
i
)
=
∑
i
=
1
N
l
o
g
p
(
y
i
∣
x
i
)
\zeta(\mu) = logp(D) = log\prod_{i=1}^{N}p(y_{i}|\mathbf x_{i}) = \sum_{i=1}^{N}logp(y_{i}|\mathbf x_{i})
ζ(μ)=logp(D)=logi=1∏Np(yi∣xi)=i=1∑Nlogp(yi∣xi)
=
∑
i
=
1
N
l
o
g
(
μ
(
x
i
)
y
i
(
1
−
μ
(
x
i
)
)
1
−
y
i
)
=\sum_{i=1}^{N}log(\mu(\mathbf x_{i})^{y_{i}}(1-\mu(\mathbf x_{i}))^{1-y_{i}})
=i=1∑Nlog(μ(xi)yi(1−μ(xi))1−yi)
=
∑
i
=
1
N
(
l
o
g
(
μ
(
x
i
)
)
y
i
+
l
o
g
(
(
1
−
μ
(
x
i
)
)
)
1
−
y
i
)
=\sum_{i=1}^{N}(log(\mu(\mathbf x_{i}))^{y_{i}} + log((1-\mu(\mathbf x_{i})))^{1-y_{i}})
=i=1∑N(log(μ(xi))yi+log((1−μ(xi)))1−yi)
=
∑
i
=
1
N
y
i
l
o
g
μ
(
x
i
)
+
(
1
−
y
i
)
l
o
g
(
1
−
μ
(
x
i
)
)
=\sum_{i=1}^{N}y_{i}log\mu(x_{i})+(1-y_{i})log(1-\mu(\mathbf x_{i}))
=i=1∑Nyilogμ(xi)+(1−yi)log(1−μ(xi))
∑
\sum
∑之后可以不用括号,只要是带索引的,就自动成为
∑
\sum
∑作用的范围。
∙
\bullet
∙ 定义负log似然损失为:
L
(
y
,
μ
(
x
)
)
=
y
l
o
g
μ
(
x
)
+
(
1
−
y
)
l
o
g
(
1
−
μ
(
x
)
)
L(y, \mu(\mathbf x)) = ylog\mu(\mathbf x)+(1-y)log(1-\mu(\mathbf x))
L(y,μ(x))=ylogμ(x)+(1−y)log(1−μ(x))本篇Logistic回归及之前的线性回归,都是通过概率分布+似然函数推导出目标函数,但Logistic回归继续将目标函数分解成各样本的损失函数,而线性回归处没有,其损失函数是直接提出来的,没有进行推导。当然这些都是课程里讲解的内容,可能并不代表该算法里就没有推导这个过程。
∙
\bullet
∙ Logistic损失亦被称为交叉熵损失(Cross Entropy Loss)不太懂,主要是下面这张PPT。