logistic回归二分类_二分类问题预测cost-优快云博客

参考：https://www.cnblogs.com/earendil/p/8268757.html

关键步骤：

找到合适的预测分类函数，一般使用sigmoid函数，输入数据得到一个(0,1)区间的值，即为分为1类的概率。
构建损失函数Cost。表示预测结果与真实结果之间的偏差。综合考虑所有训练数据的损失，将Cost求和取平均，记为 $\jmath \left ( \theta \right )$
找到使 $\jmath \left ( \theta \right )$ 最小的 $\theta$ 值。 $\jmath \left ( \theta \right )$ 越小说明预测结果越准确。使用梯度下降或梯度上升法。

具体过程：

1.预测

使用sigmoid函数作为预测分类函数：

$f(x)=\frac{1}{1+e^{^{-x}}}$

当x=0时，sigmoid函数为0.5，x>0时，sigmoid函数逐渐靠近1，x<0时，sigmoid函数靠近0.输入一个训练数据，得到(0,1)区间的数值，若>0.5，则为1类，<0.5，则为0类。

训练数据若有n个特征（x1,x2,…,xn）

具有线性边界和非线性边界情况分别如下：

现在我们只考虑线性边界情况。

$z=\theta _{0}+\theta _{1}x_{1}+\theta _{2}x_{2}+...+\theta _{n}x_{n}=\theta ^{T}X$

预测函数为：

$f(z)=\frac{1}{1+e^{^{-z}}}=\frac{1}{1+e^{^{-\theta ^{T}X}}}$

$f(z)$ 表示结果取1的概率为 $f(z)$ ，则取0的概率为1- $f(z)$ 。

2.构建损失函数

预测概率

$p(y|X,\theta^{_{T}} )=f(\theta^{_{T}}X)^{y}(1-f(\theta^{_{T}}X))^{1-y}$

综合所有训练数据构建函数：

$L(\theta )=\prod p(y^{i}|X^{i},\theta^{_{T}} )=\prod f(\theta^{_{T}}X^{i})^{y^{i}}(1-f(\theta^{_{T}}X^{i}))^{1-y^{i}}$

取对数：

$\small l (\theta )=logL(\theta )=log(\prod p(y^{i}|X^{i},\theta^{_{T}} ))=log(\prod f(\theta^{_{T}}X^{i})^{y^{i}}(1-f(\theta^{_{T}}X^{i}))^{1-y^{i}}) =\sum log(f(\theta^{_{T}}X^{i})^{y^{i}}(1-f(\theta^{_{T}}X^{i}))^{1-y^{i}}) =\sum y^{i} log(f(\theta^{_{T}}X^{i}))+(1-y^{i})log(1-f(\theta^{_{T}}X^{i}))$

$l \left ( \theta \right )$ 越大说明，正确的概率越大。

$\jmath \left ( \theta \right )=-\frac{1}{m}l(\theta )$

则 $\jmath \left ( \theta \right )$ 越小越好。

3.梯度下降法使 $\jmath \left ( \theta \right )$ 的最小/越来越小

$\theta _{j}=\theta _{j}-\alpha \frac{\partial \jmath (\theta )}{\partial \theta _{j}},j=(0,1,2,...,n)$

$\frac{\partial \jmath (\theta )}{\partial \theta _{j}}=-\frac{1}{m}\sum (y^{i}\frac{1}{f(\theta ^{T}X^{i})}\frac{\partial f(\theta ^{T}X^{i})}{\partial \theta _{j}}-(1-y^{i})\frac{1}{1-f(\theta ^{T}X^{i})}\frac{\partial f(\theta ^{T}X^{i})}{\partial \theta _{j}})$

$=-\frac{1}{m}\sum (y^{i}\frac{1}{f(\theta ^{T}X^{i})}-(1-y^{i})\frac{1}{1-f(\theta ^{T}X^{i})})\frac{\partial f(\theta ^{T}X^{i})}{\partial \theta _{j}}$

$=-\frac{1}{m}\sum (y^{i}\frac{1}{f(\theta ^{T}X^{i})}-(1-y^{i})\frac{1}{1-f(\theta ^{T}X^{i})})\frac{\partial \frac{1}{1+e^{-\theta ^{T}X}}}{\partial \theta _{j}}$

$=-\frac{1}{m}\sum (y^{i}\frac{1}{f(\theta ^{T}X^{i})}-(1-y^{i})\frac{1}{1-f(\theta ^{T}X^{i})})\frac{1}{(1+e^{-\theta ^{T}X})^{2}}e^{-\theta ^{T}X}\cdot \frac{\partial (\theta ^{T}X)}{\partial \theta _{j}}$

$=-\frac{1}{m}\sum (y^{i}\frac{1}{f(\theta ^{T}X^{i})}-(1-y^{i})\frac{1}{1-f(\theta ^{T}X^{i})})\frac{1}{(1+e^{-\theta ^{T}X})^{2}}e^{-\theta ^{T}X}\cdot x_{j}$

$=-\frac{1}{m}\sum (y^{i}\frac{1}{f(\theta ^{T}X^{i})}-(1-y^{i})\frac{1}{1-f(\theta ^{T}X^{i})})f(\theta ^{T}X^{i})(1-f(\theta ^{T}X^{i}))\cdot x_{j}$