softmax与sigmoid函数的理解

本文深入探讨了sigmoid和softmax函数在机器学习中的应用。sigmoid常用于二分类问题,作为逻辑回归的激活函数,它能将输出映射到(0,1)区间。而softmax则用于多分类,它将输出转换为概率分布,常用于神经网络的最后层。在word2vec中,softmax解决了one-hot向量正交导致的关系丢失问题,保留了词与词之间的联系。" 123593257,12805110,理解Vue v-model:从基础到自定义组件,"['前端', 'vue', 'javascript']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

1 sigmoid

1.1 sigmoid的简单推理

1.2 sigmoid函数作用以及优缺点

2 softmax

2.1 softmax的简单推理

2.2 对计算word2vec时使用softmax的理解


1 sigmoid

1.1 sigmoid的简单推理

在使用逻辑回归做二分类问题时,sigmoid函数常用作逻辑回顾的假设函数,从直觉上理解很好理解,就是在线性回归的基础上套一个sigmoid函数,将线性回归的结果(-\infty,+\infty ),映射到(0,1)范围内,使他变为一个二分类问题。但是在sigmoid背后有一套严谨的数学推导,包括sigmoid函数时怎么推导出来的,为什么使用丝sigmoid函数。

逻辑回归和线性回归同属一个广义线性模型,顾名思义,这些模型有相似之处,实在同一套约束下设计出来的。例如解决一个二分类问题,首先假设这个问题可以使用广义线性模型来解决,其次假设数据的概率分布情况,发现是二分类问题,假设数据服从伯努利分布,然后使用MLE计算最优化的概率,从而学习参数的值。具体解释可以参考之前写的这篇:广义线性模型总结(GLM)。

广义线性模型有一些性质,这些模型的数据分布同属指数分布族,概率密度函数的通式如下:

其中:

  • \eta:分布的自然参数(natural parameter)或标准参数(canonical parameter)
  • T(y)充分统计量(sufficient statistic),一般等于y
  • a(\eta)对数分配函数(log partition function),这部分确保Y的分布p(y:η) 计算的结果加起来(连续函数是积分)等于1。
  • b(y)基础度量值(base measure)

将伯努利分布的概率密度函数套入这个指数分布族的概率密度函数中,可以一一对应的找到b(y)\etaT(y)a(\eta)四个值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值