机器学习笔记——3 logistic模型和probit模型基本原理，从哲学视角谈谈统一二者的潜变量模型

最新推荐文章于 2024-11-30 21:57:13 发布

_Volcano

最新推荐文章于 2024-11-30 21:57:13 发布

阅读量1w

点赞数 7

CC 4.0 BY-SA版权

分类专栏：机器学习笔记文章标签：机器学习人工智能统计学习数据挖掘数学计算机

本文链接：https://blog.youkuaiyun.com/ZJC_BELIEF/article/details/88852371

本文探讨了机器学习中分类问题的两种基本模型——logistic模型和probit模型，从哲学角度出发通过潜变量模型统一二者。文章介绍了线性概率模型的缺陷，阐述了logistic函数和标准正态分布作为映射函数的特性，并分析了两种模型的参数求解，展示了它们在极大似然估计下具有相同的梯度更新规则。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

logistic模型和probit模型基本原理，从哲学视角谈谈统一二者的潜变量模型

监督学习的两种类别

在监督学习中，根据标签值的类型可以将其分为两类：

一类是定量数据，其分为计量型和计数型，这种可以用上一节介绍的简单线性模型解决，一般可以称为回归问题。
另一类即是属性数据，属性数据也有两种，分别是名义数据和有序数据，这一类的数据的数值大小已经没有运算的意义了，一般称为分类问题。

分类问题的两个基本模型

我们讨论的分类问题，即标签值为属性数据的情况。事实上，我们生活中遇到的大多数问题，都是二分类问题(bianry classification)。其标签值只取两个值0和1。即 $0,1}\gamma = \{0,1\}$ 。据于此，也为了讨论的方便，我们以下的问题暂只考虑二分类的情况，后面我们将会看到，我们的讨论很多可以搬移到多分类的情况。

我们将会讨论两种处理二分类问题的基本模型，分别为：

logistic模型
probit模型

然后我们会看到它们有很多相似之处，事实上这并不是巧合，我们将介绍潜变量模型(Latent Variable Models)，从而可以发现logistic和probit模型均是该模型的特例。这将是本篇文章的主要内容。但是这里还是需要提醒读者，在后续的文章中，我们还能看到更为一般的模型，即广义线性模型(Generalized Liner Model，GLM)，GLM是集大成者，从它可以发展出各种各样的线性模型，包括前面所讲的简单线性模型，此为后话。

从传统的线性概率模型说起

如果延续简单线性模型的思路来处理二分类问题，即
$\theta^Tx + \epsilon$ $y^>0.5 0, y^<0.5 y = \left\{ \begin{aligned} \ \ \ \ 1, \ \ \ \ \ \ \ \ \ \ \ \ \ \hat{y} > 0.5\\ \ \ \ \ 0 , \ \ \ \ \ \ \ \ \ \ \ \ \ \hat{y} < 0.5 \end{aligned} \right.$ 这即是传统的线性概率模型，它将得到的预测值 $y^\hat{y}$ 视为y取1的概率。这里的主要依据就是因为y是一个二项分布，因此有 $E (y ∣ x) = p$ 而根据线性模型的基本假设， $ϵ\epsilon$ 服从零均值的正态分布，因此有
$\theta^Tx$ 从而认为 $\theta^Tx$ 直观来看，这里首先就存在一个显然的缺陷，即 $y^\hat{y}$ 的范围根本不会限制在概率的取值范围 $[0, 1]$ ，另外从二分类的取值情况来看，有很多理由可以反驳经典线性假设的几个基本假设是不成立的。
因为存在这样的问题，所以需要重新改进这个模型，我们首先做的即是将取值范围从 $\infty,\infty)$ 映射到 $[0, 1]$ ，这个映射函数最好是连续函数，因此我们可以想到有许多的概率分布函数可以充当这个角色。

logistic模型

其中最为著名的就是logstic函数(sigmoid function)，其表达式为
$\frac{1}{1+e^{-z}}$ 这个函数可以作为一个分布函数，称为logistic分布，相应的变量称为logistic变量。后面我们会看到，这是在GLM的基本假设下由二项分布推导得到的非常自然的形式。但现在我们要讨论这个函数本身的性质，它具备一些较方便的性质：

一阶导数： $g′(z)=g(z)[1−g(z)]g^{'}(z) = g(z)[1 - g(z)]$
二阶导数： $g′′(z)=g′(z)[1−2g(z)]g^{''}(z) = g^{'}(z)[1 - 2g(z)]$
反函数形式： $log\frac{g(z)}{1-g(z)}$

可以看到， $g′(z)g^{'}(z)$ 始终大于零，从而当 $\frac{1}{2}$

最低0.47元/天解锁文章

200万优质内容无限畅学