logistic回归2—损失函数

分类任务定义

∙ \bullet 给定训练数据 D = { x i , y i } i = 1 N D=\{{\mathbf x_{i}, y_{i}}\}_{i=1}^N D={xi,yi}i=1N,其中N为训练样本的数目,i为样本索引, x i \mathbf x_{i} xi为第i个样本的输入特征, y i y_{i} yi为对应的输出/响应, y i ∈ σ , σ = { 1 , . . . , C } y_{i} \in \sigma,\sigma=\{1,...,C\} yiσσ={1,...,C}注意这里用的符号sigma,PPT用的其实不是sigma,没找到那个符号的写法。
∙ \bullet 分类:根据训练样本D,学习一个从输入x到输出y的映射f。
∙ \bullet 对新的测试数据x,用学习到的f对其进行预测: y ^ = f ( x ) \hat y = f(x) y^=f(x)

分类任务的损失函数

∙ \bullet 0/1损失:预测类别正确损失为0,否则为1,记为 L ( y , y ^ ) = { 0     y = y ^ 1     y ≠ y ^ L(y, \hat y) = \begin{cases}\\0 \space\space\space y=\hat y \\1 \space\space\space y \neq \hat y \end{cases} L(y,y^)= 0   y=y^1   y=y^但0/1损失不连续,优化计算不方便。
∙ \bullet 寻找其他替代损失函数(Surrogate Loss Function),通常是凸函数,计算方便面,且和0/1损失是一致的。
∙ \bullet 回归中用的L2损失可以吗?L2损失,对应评价指标MSE,不是一种很好的损失,若 y ^ \hat y y^能限制在比较小的范围内还好,否则就不是一个能很好的替代0/1损失的函数,如果要用,勉强也还可以。我还是不懂为何说L2不是很合适。
在这里插入图片描述

Logistic损失

∙ \bullet Logistic回归模型: y ∣ x y|\mathbf x yx ~ B e r n o u l l i ( μ ( x ) ) Bernoulli(\mu(x)) Bernoulli(μ(x))
p ( y ∣ x ; μ ( x ) ) = μ ( x ) y ( 1 − μ ( x ) ) 1 − y p(y|\mathbf x;\mu(x)) = \mu(x)^y(1-\mu(x))^{1-y} p(yx;μ(x))=μ(x)y(1μ(x))1y μ ( x ) = σ ( w T x ) \mu(x) = \sigma(\mathbf w^T\mathbf x) μ(x)=σ(wTx)
∙ \bullet Log似然损失为:
ζ ( μ ) = l o g p ( D ) = l o g ∏ i = 1 N p ( y i ∣ x i ) = ∑ i = 1 N l o g p ( y i ∣ x i ) \zeta(\mu) = logp(D) = log\prod_{i=1}^{N}p(y_{i}|\mathbf x_{i}) = \sum_{i=1}^{N}logp(y_{i}|\mathbf x_{i}) ζ(μ)=logp(D)=logi=1Np(yixi)=i=1Nlogp(yixi) = ∑ i = 1 N l o g ( μ ( x i ) y i ( 1 − μ ( x i ) ) 1 − y i ) =\sum_{i=1}^{N}log(\mu(\mathbf x_{i})^{y_{i}}(1-\mu(\mathbf x_{i}))^{1-y_{i}}) =i=1Nlog(μ(xi)yi(1μ(xi))1yi) = ∑ i = 1 N ( l o g ( μ ( x i ) ) y i + l o g ( ( 1 − μ ( x i ) ) ) 1 − y i ) =\sum_{i=1}^{N}(log(\mu(\mathbf x_{i}))^{y_{i}} + log((1-\mu(\mathbf x_{i})))^{1-y_{i}}) =i=1N(log(μ(xi))yi+log((1μ(xi)))1yi) = ∑ i = 1 N y i l o g μ ( x i ) + ( 1 − y i ) l o g ( 1 − μ ( x i ) ) =\sum_{i=1}^{N}y_{i}log\mu(x_{i})+(1-y_{i})log(1-\mu(\mathbf x_{i})) =i=1Nyilo(xi)+(1yi)log(1μ(xi)) ∑ \sum 之后可以不用括号,只要是带索引的,就自动成为 ∑ \sum 作用的范围。
∙ \bullet 定义负log似然损失为: L ( y , μ ( x ) ) = y l o g μ ( x ) + ( 1 − y ) l o g ( 1 − μ ( x ) ) L(y, \mu(\mathbf x)) = ylog\mu(\mathbf x)+(1-y)log(1-\mu(\mathbf x)) L(y,μ(x))=ylo(x)+(1y)log(1μ(x))本篇Logistic回归及之前的线性回归,都是通过概率分布+似然函数推导出目标函数,但Logistic回归继续将目标函数分解成各样本的损失函数,而线性回归处没有,其损失函数是直接提出来的,没有进行推导。当然这些都是课程里讲解的内容,可能并不代表该算法里就没有推导这个过程。
∙ \bullet Logistic损失亦被称为交叉熵损失(Cross Entropy Loss)不太懂,主要是下面这张PPT。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值