《Andrew Ng 机器学习笔记》这一系列文章文章是我再观看Andrew Ng的Stanford公开课之后自己整理的一些笔记,除了整理出课件中的主要知识点,另外还有一些自己对课件内容的理解。同时也参考了很多优秀博文,希望大家共同讨论,共同进步。
网易公开课地址:http://open.163.com/special/opencourse/machinelearning.html
参考博文:http://blog.youkuaiyun.com/acdreamers/article/details/44663305 http://blog.sina.com.cn/s/blog_8a951ceb0102wa6t.html
本篇博文涉及课程四:牛顿方法
主要内容有:
(1)牛顿法(Newton's Method) (上篇博文已做具体分析)
(2)指数分布族 (上篇博文已做具体分析)
(3)广义线性模型(GLMS)
(4)多项式分布
广义线性模型

这次我们要了解的广义线性模型,是基于指数分布族的,我们可以通过指数分布族引出广义线性模型(Generalized LinearModel,GLM)。这种模型是把自变量的线性预测函数当作因变量的估计值。
实际上线性最小二乘回归和Logistic回归都是广义线性模型的一个特例。当随机变量y服从高斯分布,η与正太分布的参数μ的关系是相等,那么得到的是线性最小二乘回归,当随机变量y服从伯努利分布,η与参数φ的关系是logistic函数,我们得到logistic回归。
由此可以看出,η以不同的映射函数与其它概率分布函数中的参数发生联系,从而得到不同的模型,广义线性模型正式将指数分布族中的所有成员(每个成员正好有一个这样的联系)都作为线性模型的扩展,通过各种非线性的连接函数将线性函数映射到其它空间从而大大扩大了线性模型可解决的问题。









对于最小二乘模型,推导过程如下:


Logistic模型的推导过程如下:

正则响应函数的逆称为正则关联函数(canonical link function)。

Softmax
我们知道,对于伯努利分布,我们采用Logistic回归建模。那么我们应该如何处理多分类问题?(比如要进行邮件分类;预测病情属于哪一类等等)。对于这种多项式分布我们使用softmax回归建模。


因为


引入指示函数I,使得
这样,T(y)向量中的某个元素就可以表示为:
根据上式,我们还可以得到:
联合分布的概率密度函数为:于是,多项分布转变为指数分布族的推导如下:

因为有:

将上式代入



对上式取对数,得到如下最大似然函数对数为:
然后,将

网易公开课地址:http://open.163.com/special/opencourse/machinelearning.html
参考博文:http://blog.youkuaiyun.com/acdreamers/article/details/44663305 http://blog.sina.com.cn/s/blog_8a951ceb0102wa6t.html
本篇博文涉及课程四:牛顿方法
主要内容有:
(1)牛顿法(Newton's Method) (上篇博文已做具体分析)
(2)指数分布族 (上篇博文已做具体分析)
(3)广义线性模型(GLMS)
(4)多项式分布
广义线性模型

这次我们要了解的广义线性模型,是基于指数分布族的,我们可以通过指数分布族引出广义线性模型(Generalized LinearModel,GLM)。这种模型是把自变量的线性预测函数当作因变量的估计值。
实际上线性最小二乘回归和Logistic回归都是广义线性模型的一个特例。当随机变量y服从高斯分布,η与正太分布的参数μ的关系是相等,那么得到的是线性最小二乘回归,当随机变量y服从伯努利分布,η与参数φ的关系是logistic函数,我们得到logistic回归。
由此可以看出,η以不同的映射函数与其它概率分布函数中的参数发生联系,从而得到不同的模型,广义线性模型正式将指数分布族中的所有成员(每个成员正好有一个这样的联系)都作为线性模型的扩展,通过各种非线性的连接函数将线性函数映射到其它空间从而大大扩大了线性模型可解决的问题。









对于最小二乘模型,推导过程如下:


Logistic模型的推导过程如下:

正则响应函数的逆称为正则关联函数(canonical link function)。

Softmax
我们知道,对于伯努利分布,我们采用Logistic回归建模。那么我们应该如何处理多分类问题?(比如要进行邮件分类;预测病情属于哪一类等等)。对于这种多项式分布我们使用softmax回归建模。


因为


引入指示函数I,使得
这样,T(y)向量中的某个元素就可以表示为:
根据上式,我们还可以得到:
联合分布的概率密度函数为:于是,多项分布转变为指数分布族的推导如下:

因为有:

将上式代入



对上式取对数,得到如下最大似然函数对数为:
然后,将

再通过牛顿法或梯度下降法求得参数θ,再假设函数h对新的样例进行预测,即可完成多分类任务。
转载:https://blog.youkuaiyun.com/v1_vivian/article/details/52055760