logistic模型和probit模型基本原理,从哲学视角谈谈统一二者的潜变量模型
监督学习的两种类别
在监督学习中,根据标签值的类型可以将其分为两类:
- 一类是定量数据,其分为计量型和计数型,这种可以用上一节介绍的简单线性模型解决,一般可以称为回归问题。
- 另一类即是属性数据,属性数据也有两种,分别是名义数据和有序数据,这一类的数据的数值大小已经没有运算的意义了,一般称为分类问题。
分类问题的两个基本模型
我们讨论的分类问题,即标签值为属性数据的情况。事实上,我们生活中遇到的大多数问题,都是二分类问题(bianry classification)。其标签值只取两个值0和1。即γ={ 0,1}\gamma = \{0,1\}γ={ 0,1}。据于此,也为了讨论的方便,我们以下的问题暂只考虑二分类的情况,后面我们将会看到,我们的讨论很多可以搬移到多分类的情况。
我们将会讨论两种处理二分类问题的基本模型,分别为:
- logistic模型
- probit模型
然后我们会看到它们有很多相似之处,事实上这并不是巧合,我们将介绍潜变量模型(Latent Variable Models),从而可以发现logistic和probit模型均是该模型的特例。这将是本篇文章的主要内容。但是这里还是需要提醒读者,在后续的文章中,我们还能看到更为一般的模型,即广义线性模型(Generalized Liner Model,GLM),GLM是集大成者,从它可以发展出各种各样的线性模型,包括前面所讲的简单线性模型,此为后话。
从传统的线性概率模型说起
如果延续简单线性模型的思路来处理二分类问题,即
y=θTx+ϵy = \theta^Tx + \epsilony=θTx+ϵy={
1, y^>0.5 0, y^<0.5 y = \left\{ \begin{aligned} \ \ \ \ 1, \ \ \ \ \ \ \ \ \ \ \ \ \ \hat{y} > 0.5\\ \ \ \ \ 0 , \ \ \ \ \ \ \ \ \ \ \ \ \ \hat{y} < 0.5 \end{aligned} \right. y={
1, y^>0.5 0, y^<0.5这即是传统的线性概率模型,它将得到的预测值y^\hat{y}y^视为y取1的概率。 这里的主要依据就是因为y是一个二项分布,因此有E(y∣x)=pE(y|x) = pE(y∣x)=p而根据线性模型的基本假设,ϵ\epsilonϵ服从零均值的正态分布,因此有
E(y∣x)=θTxE(y|x) = \theta^TxE(y∣x)=θTx从而认为p=θTxp = \theta^Txp=θTx直观来看,这里首先就存在一个显然的缺陷,即y^\hat{y}y^的范围根本不会限制在概率的取值范围[0,1][0,1][0,1],另外从二分类的取值情况来看,有很多理由可以反驳经典线性假设的几个基本假设是不成立的。
因为存在这样的问题,所以需要重新改进这个模型,我们首先做的即是将取值范围从(−∞,∞)(- \infty,\infty)(−∞,∞) 映射到[0,1][0,1][0,1],这个映射函数最好是连续函数,因此我们可以想到有许多的概率分布函数可以充当这个角色。
logistic模型
其中最为著名的就是logstic函数(sigmoid function),其表达式为
g(z)=11+e−zg(z) = \frac{1}{1+e^{-z}}g(z)=1+e−z1这个函数可以作为一个分布函数,称为logistic分布,相应的变量称为logistic变量。后面我们会看到,这是在GLM的基本假设下由二项分布推导得到的非常自然的形式。但现在我们要讨论这个函数本身的性质,它具备一些较方便的性质:
- 一阶导数:g′(z)=g(z)[1−g(z)]g^{'}(z) = g(z)[1 - g(z)]g′(z)=g(z)[1−g(z)]
- 二阶导数: g′′(z)=g′(z)[1−2g(z)]g^{''}(z) = g^{'}(z)[1 - 2g(z)]g′′(z)=g′(z)[1−2g(z)]
- 反函数形式:z=logg(z)1−g(z)z = log\frac{g(z)}{1-g(z)}z=log1−g(z)g(z)
可以看到,g′(z)g^{'}(z)g′(z)始终大于零,从而当z=0,g(z)=12z = 0,g(z) = \frac{1}{2}