机器学习笔记——3 logistic模型和probit模型基本原理,从哲学视角谈谈统一二者的潜变量模型

本文探讨了机器学习中分类问题的两种基本模型——logistic模型和probit模型,从哲学角度出发通过潜变量模型统一二者。文章介绍了线性概率模型的缺陷,阐述了logistic函数和标准正态分布作为映射函数的特性,并分析了两种模型的参数求解,展示了它们在极大似然估计下具有相同的梯度更新规则。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

logistic模型和probit模型基本原理,从哲学视角谈谈统一二者的潜变量模型


监督学习的两种类别

在监督学习中,根据标签值的类型可以将其分为两类:

  • 一类是定量数据,其分为计量型和计数型,这种可以用上一节介绍的简单线性模型解决,一般可以称为回归问题。
  • 另一类即是属性数据,属性数据也有两种,分别是名义数据和有序数据,这一类的数据的数值大小已经没有运算的意义了,一般称为分类问题。

分类问题的两个基本模型

我们讨论的分类问题,即标签值为属性数据的情况。事实上,我们生活中遇到的大多数问题,都是二分类问题(bianry classification)。其标签值只取两个值0和1。即γ={ 0,1}\gamma = \{0,1\}γ={ 0,1}。据于此,也为了讨论的方便,我们以下的问题暂只考虑二分类的情况,后面我们将会看到,我们的讨论很多可以搬移到多分类的情况。

我们将会讨论两种处理二分类问题的基本模型,分别为:

  • logistic模型
  • probit模型

然后我们会看到它们有很多相似之处,事实上这并不是巧合,我们将介绍潜变量模型(Latent Variable Models),从而可以发现logistic和probit模型均是该模型的特例。这将是本篇文章的主要内容。但是这里还是需要提醒读者,在后续的文章中,我们还能看到更为一般的模型,即广义线性模型(Generalized Liner Model,GLM),GLM是集大成者,从它可以发展出各种各样的线性模型,包括前面所讲的简单线性模型,此为后话。

从传统的线性概率模型说起

如果延续简单线性模型的思路来处理二分类问题,即
y=θTx+ϵy = \theta^Tx + \epsilony=θTx+ϵy={     1,             y^&gt;0.5    0,             y^&lt;0.5 y = \left\{ \begin{aligned} \ \ \ \ 1, \ \ \ \ \ \ \ \ \ \ \ \ \ \hat{y} &gt; 0.5\\ \ \ \ \ 0 , \ \ \ \ \ \ \ \ \ \ \ \ \ \hat{y} &lt; 0.5 \end{aligned} \right. y={     1,             y^>0.5    0,             y^<0.5这即是传统的线性概率模型,它将得到的预测值y^\hat{y}y^视为y取1的概率。 这里的主要依据就是因为y是一个二项分布,因此有E(y∣x)=pE(y|x) = pE(yx)=p而根据线性模型的基本假设,ϵ\epsilonϵ服从零均值的正态分布,因此有
E(y∣x)=θTxE(y|x) = \theta^TxE(yx)=θTx从而认为p=θTxp = \theta^Txp=θTx直观来看,这里首先就存在一个显然的缺陷,即y^\hat{y}y^的范围根本不会限制在概率的取值范围[0,1][0,1][0,1],另外从二分类的取值情况来看,有很多理由可以反驳经典线性假设的几个基本假设是不成立的。
因为存在这样的问题,所以需要重新改进这个模型,我们首先做的即是将取值范围从(−∞,∞)(- \infty,\infty)(,) 映射到[0,1][0,1][0,1],这个映射函数最好是连续函数,因此我们可以想到有许多的概率分布函数可以充当这个角色。

logistic模型

其中最为著名的就是logstic函数(sigmoid function),其表达式为
g(z)=11+e−zg(z) = \frac{1}{1+e^{-z}}g(z)=1+ez1这个函数可以作为一个分布函数,称为logistic分布,相应的变量称为logistic变量。后面我们会看到,这是在GLM的基本假设下由二项分布推导得到的非常自然的形式。但现在我们要讨论这个函数本身的性质,它具备一些较方便的性质:

  1. 一阶导数:g′(z)=g(z)[1−g(z)]g^{&#x27;}(z) = g(z)[1 - g(z)]g(z)=g(z)[1g(z)]
  2. 二阶导数: g′′(z)=g′(z)[1−2g(z)]g^{&#x27;&#x27;}(z) = g^{&#x27;}(z)[1 - 2g(z)]g(z)=g(z)[12g(z)]
  3. 反函数形式:z=logg(z)1−g(z)z = log\frac{g(z)}{1-g(z)}z=log1g(z)g(z)

可以看到,g′(z)g^{&#x27;}(z)g(z)始终大于零,从而当z=0,g(z)=12z = 0,g(z) = \frac{1}{2}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值