文章目录
1 模型
1.1 二项逻辑回归模型
1.1.1 逻辑斯蒂分布
连续随机变量X服从逻辑斯蒂分布时,具有以下分布函数和概率密度函数: F ( x ) = P ( X < x ) = 1 1 + e − ( x − μ ) / γ f ( x ) = F ′ ( x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2 γ 为 形 状 参 数 , μ 为 位 置 参 数 F(x) = P(X<x) = \frac{1}{1+e^{-(x-\mu)/\gamma}} \\ f(x) = F'(x) = \frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2} \quad \gamma 为形状参数,\mu为位置参数 F(x)=P(X<x)=1+e−(x−μ)/γ1f(x)=F′(x)=γ(1+e−(x−μ)/γ)2e−(x−μ)/γγ为形状参数,μ为位置参数一般在讨论逻辑回归模型的时候采用最简单的形式,即参数都等于1.即 F ( x ) = 1 1 + e − x F(x) = \frac{1}{1+e^{-x}} F(x)=1+e−x1
1.1.2 线性模型
f ( x ) = w ⋅ x ( w ∈ R n + 1 , x ∈ R n + 1 ) f(x) = w\cdot x\quad (w\in R^{n+1} ,x\in R^{n+1}) f(x)=w⋅x(w∈Rn+1,x∈Rn+1),n 表示特征个数。
根据最小化均方差则 w ∗ = a r g m i n w ( y − w ⋅ x ) T ( y − w ⋅ x ) w^* = argmin_w (y-w\cdot x)^T(y-w\cdot x) w∗=argminw(y−w⋅x)T(y−w⋅x),
根据矩阵关系对 w w w求导,并令导数等于0,则 w ∗ = ( x T x ) T x T y w^* = (x^Tx)^Tx^Ty w∗=(xTx)TxTy,
这个最优解需要满足 x T x x^Tx xTx满秩,也就是需要特征的数量小于样本的个数如果不是,需要做一些其他的处理。
为方便,所有的线性模型均使用扩展 w w w和 x x x的 f ( x ) = w ⋅ x f(x) = w\cdot x\quad f(x)=w⋅x表示
1.1.3 二项逻辑回归模型
线性回归是逻辑斯蒂回归的基础,线性回归是真正的连续值的回归问题,逻辑回归得到的是概率值,解决的是二分类问题。
- 得到的概率值没有任何物理含义。
- 可以推广到多分类问题
我一直以来的理解是,逻辑回归与线性回归的区别在于,线性回归不满足一些特定问题(非线性),使用sigmoid()函数对线性回归的结果做一个变换,可以得到两个类别的概率。神经网络里面会考虑神经元是否激活,可以认为是二分类问题,因此常用的激活函数有sigmoid()对神经元的输出做变换,确定神经元是否被激活。
角度一
也就是我理解的角度,逻辑回归模型就是 h ( x ) = s i g m o i d ( f ( x ) ) = F ( w ⋅ x ) = 1 1 + e − w ⋅ x h(x) = sigmoid(f(x)) = F(w\cdot x) = \frac{1}{1+e^{-w\cdot x}} h(x)=sigmoid(f(x))=F(w⋅x)=1+e−w⋅x1其中 w ⋅ x w\cdot x w⋅x的值域是 R R R, s i g m o i d ( ) sigmoid() sigmoid()函数的值域是[0,1],可以知道,线性模型的输出越接近无穷,概率值越接近1,线性模型的输出接近负无穷,则概率值越接近0.
假设:
P ( y = 1 ∣ x ) = 1 1 + e − w ⋅ x = e w ⋅ x 1 + e w ⋅ x = ϕ ( x ) P (y=1|x) = \frac{1}{1+e^{-w\cdot x}} = \frac{e^{w\cdot x}}{1+e^{w\cdot x}} = \phi(x) P(y=1∣x)=1+e−w⋅x1=1+ew⋅xew⋅x=ϕ(x),则 P ( y = 0 ∣ x ) = 1 − 1 1 + e − w ⋅ x = 1 1 + e w ⋅ x = 1 − ϕ ( x ) P (y=0|x) =1- \frac{1}{1+e^{-w\cdot x}} = \frac{1}{1+e^{w\cdot x}} =1- \phi(x) P(y=0∣x)=1−1+e−w⋅x1=1+ew⋅x1=1−ϕ(x),那么整个数据集的准确率也就是似然函数可以写为: l ( x ) = ∏ i = 1 N [ ϕ ( x i ) ] y i [ 1 − ϕ ( x i ) ] 1 − y i l(x) = \prod_{i=1}^N[\phi(x_i)]^{y_i}[1-\phi(x_i)]^{1-y_i} l(x)=i=1∏N[ϕ(xi)]yi[1−ϕ(xi)]1−yi,为方便计算取对数似然函数为: L ( x ) = ∑ i = 1 N [ y i l o g ϕ ( x i ) 1 − ϕ ( x i ) + l o g ( 1 − ϕ ( x i ) ) ] = ∑ i = 1 N [ y i ( w ⋅ x i ) − l o g ( 1 + e w ⋅ x i ) ] L(x) = \sum_{i=1}^N[y_ilog\frac{\phi(x_i)}{1-\phi(x_i)}+log(1-\phi(x_i))]\\ = \sum_{i=1}^N[y_i(w \cdot x_i )-log(1+e^{w\cdot x_i})] L(x)=i=1∑N[yilog1−ϕ(xi)ϕ(xi)+log(1−ϕ(xi))]=i=1∑N[yi(w⋅xi)−log(1+ew⋅xi)]那么需要最大化似然函数 L L L求解参数 w w w. w w w是线性回归的拟合系数,所以逻辑回归实质是根据训练数据对分类边界线建立合适的回归公式。
角度二
统计学习方法首先从逻辑回归模型的定义出发,即已知 P ( y = 1 ∣ x ) = 1 1 + e − w ⋅ x = e w ⋅ x 1 + e w ⋅ x = ϕ ( x ) P (y=1|x) = \frac{1}{1+e^{-w\cdot x}} = \frac{e^{w\cdot x}}{1+e^{w\cdot x}} = \phi(x) P(y=1∣x)=1+e−w⋅x1=1+ew⋅xew⋅x=ϕ(x), P ( y = 0 ∣ x ) = 1 − 1 1 + e − w ⋅ x = 1 1 + e w ⋅ x = 1 − ϕ ( x ) P (y=0|x) =1- \frac{1}{1+e^{-w\cdot x}} = \frac{1}{1+e^{w\cdot x}} =1- \phi(x) P(y=0∣x)=1−1+e−w⋅x1=1+ew⋅x1=1−ϕ(x),从这个公式出发得到逻辑回归模型与线性模型的关系。
一个事件的几率是指该事件发生的概率和不发生的概率的比值,如果一个事件发生的概率是p,那么该事件的几率是 p 1 − p \frac{p}{1-p} 1−pp.
所以以逻辑回归模型的定义得到正样本的概率是 ϕ ( x ) \phi(x) ϕ(x),负样本的概率是 1 − ϕ ( x ) 1-\phi(x) 1−ϕ(x),那么该事件的几率是 ϕ ( x ) 1 − ϕ ( x ) = e w ⋅ x \frac{\phi(x)}{1-\phi(x)}=e^{w\cdot x} 1−ϕ(x)ϕ(x)=ew⋅x,如果取对数几率,就可以得到 l o g ( ϕ ( x ) 1 − ϕ ( x ) ) = w ⋅ x log(\frac{\phi(x)}{1-\phi(x)})=w\cdot x log(1−ϕ(x)ϕ(x))=w⋅x.也就是说,在逻辑回归中,输出