手搓GPT系列之 - 如何理解logit函数

马尔科夫司机

已于 2023-06-11 16:32:29 修改

阅读量1k

点赞数

分类专栏： nlp 文章标签： python 机器学习 nlp 人工智能

于 2023-04-04 23:57:37 首次发布

本文链接：https://blog.youkuaiyun.com/marlinlm/article/details/129964528

版权

nlp 专栏收录该内容

13 篇文章

订阅专栏

文章解释了logit公式的起源和含义，它表示的是概率的对数odds的取值。首先介绍了odd，即事件发生的概率与不发生的概率之比，然后展示了在逻辑回归（LR）模型中，如何通过logit转换将概率转化为可以处理的数值。通过这种转换，logit函数成为了神经网络中sigmoid激活函数的前身。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

NLP还存不存在我不知道，但是数学之美一直都在。之前的文章中有提到logit公式为： $w^Tx+b$ 。如何理解这个logit公式？为什么叫这个名字呢？有些人说logit公式就是神经网络中未经过连接函数（一般为sigmoid函数）处理过的函数。这些说法也不错，不过还没到点上，本文将为机器学习的爱好者们说明一下为什么这个公式叫logit公式。

1 先理解一个基础概念：odd

中文直译是”可能性，机率”，在数学上有更加明确的意义，即一个事情发生的概率和不发生的概率之比。假设某件事 $x$ 发生的概率为 $p(x)$ ，那么：

$odd(x)=\frac{p(x)}{1-p(x)}$ 。

由于 $p(x)\in[0,1]$ ，所以 $odd(x)\in[0,+\inf)$ 。

2 odd函数图像

import numpy as np
import math
import matplotlib.pyplot as plt

def odd(x):
    return x / (1 - x)

x=np.arange(0,1,0.001)
y1=[odd(a) for a in x]

plot1=plt.plot(x,y1,'*',label='odd(x)')

plt.xlabel('X axis')
plt.ylabel('Y axis')
plt.title('Odd Function')
plt.legend(loc=4)
plt.grid(True)
plt.show()

3 LR模型中的logit

我们拿LR模型的似然函数：

$p(x)=\frac{1}{1+e^{-w^Tx+b}}$

我们做一些转换：

$1-p(x)=\frac{e^{-w^Tx+b}}{1+e^{-w^Tx+b}}$

$\frac{p(x)}{1-p(x)}=e^{w^Tx+b}$

$w^Tx+b=\log{\frac{p(x)}{1-p(x)}}=\log odd(x)$

通过上边的转化，我们可以看到， $w^Tx+b$ 等于odd值取log，因此被称为logit函数，也可以理解为log它，它就是odd值。

4 logit函数图像

import numpy as np
import math
import matplotlib.pyplot as plt

x=np.arange(0.0001,1,0.0001)
odd=[a/(1-a) for a in x]
y1=[math.log(a,math.e) for a in odd]


plot1=plt.plot(x,y1,'*',label='logit(x)')


plt.xlabel('X axis')
plt.ylabel('Y axis')
plt.title('Logit Function')
plt.legend(loc=4)
plt.grid(True)
plt.show()