文章目录
前言
预测任务分为:
- 回归问题:输入、输出变量为连续变量。
- 分类问题:输出变量为有限个离散变量。
- 标注问题:输入、输出变量为变量序列。
前面提到用感知机进行分类时,得到了是离散变量。但是实际上是因为 s i g n sign sign函数,如果用这个函数,不就是线性回归了嘛!
逻辑斯蒂回归(logistic distribution)模型适用于多类分类问题,它是对数线性模型,属于判别模型。它源自于逻辑斯蒂分布。
优点:计算代价不高,易于理解和实现。
缺点:容易欠拟合,分类精度可能不高。
逻辑斯蒂分布
首先我们需要知道什么是 s i g m o i d sigmoid sigmoid函数?
s i g m o i d sigmoid sigmoid是一个在生物学中常见的S型生长曲线, s i g m o i d sigmoid sigmoid函数常被用作神经网络的激活函数。
θ ( x ) = 1 1 + e − x \theta(x)=\frac{1}{1+e^{-x}} θ(x)=1+e−x1
这个曲线以点 ( u , 1 2 ) (u,\frac{1}{2}) (u,21)为中心对称,而且在中心附近增长速度较快,在两端增长速度较慢。取值范围为 ( 0 , 1 ) (0,1) (0,1),它可以将一个实数映射到 ( 0 , 1 ) (0,1) (0,1)的区间,可以用来做二分类。逻辑斯蒂函数,也就是逻辑斯蒂分布的分布函数与它一样。密度函数是一个凸函数。
个人认为sigmoid函数和logisitic函数差别不大
参考:https://baike.baidu.com/item/Sigmoid%E5%87%BD%E6%95%B0/7981407
https://baike.baidu.com/item/%E9%80%BB%E8%BE%91%E6%96%AF%E8%B0%9B%E5%88%86%E5%B8%83/19127203#reference-[1]-19510388-wrap
模型
之前的是在 w T x + b w^{T}x+b wTx+b外面加上 s i g n sign sign函数,现在直接将 s i g n sign sign函数替换为 s i g m o i d sigmoid sigmoid函数,上图为 θ ( ⋅ ) \theta(·) θ(⋅)。两者的区别在于损失函数的计算。
二项逻辑斯蒂回归模型
顾名思义,解决二分类问题。
把 b b b放入 w w w, x x x多一个 1 1 1还是很好理解的,矩阵展开就行了。公式6.5分子分母除以分子,就变得和 s i g m o i d sigmoid sigmoid函数一致。公式6.6直接是因为sigmoid的对称性,由公式6.6推来。
多项逻辑斯蒂回归模型
用于多分类问题:
策略
在逻辑斯蒂回归模型中,单看等式左边 P ( Y = y ∣ x ) P(Y=y|x) P(Y=y∣x)很明显是一个条件概率。等式右边直接用 θ ( ⋅ ) \theta(·) θ(⋅)代替,明显是个关于 w w w的公式,因为实际问题中 x x x是已知的。
如果 θ θ θ是已知确定的, x x x是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点 x x x,其出现概率是多少。
如果 x x x是已知确定的, θ θ θ是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数,出现 x x x这个样本点的概率是多少。似然问题:关于模型的参数 θ θ θ是未知的。所以逻辑斯蒂回归求解模型参数是一个似然问题。
用极大似然估计法估计模型参数。极大似然估计法,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!
我们希望得到一个好的模型,策略就是每一个样本分类正确的概率能够尽可能大(你也不想你的分类可信度低或者错误分类概率变大吧,所以样本和正确分类事件要同时满足哦),每个样本还是独立同分布的。那么策略就是
m a x ∏ P ( x , Y = y ) = m a x ∏ P ( Y = y ∣ x ) P ( x ) max \prod P(x,Y=y)=max\prod P(Y=y|x)P(x) max