机器学习算法5_逻辑回归

最新推荐文章于 2025-05-19 17:30:46 发布

原创最新推荐文章于 2025-05-19 17:30:46 发布 · 192 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #逻辑回归 #算法

算法专栏收录该内容

11 篇文章

订阅专栏

机器学习算法第四篇

本文目内容:逻辑回归算法推导
本文基于梯度下降法, 多元线性回归
本文为纯数学向分析

各种预设

$\$
$设有数据 D a t a 如下 (上标为列号, 下标为行号), y 取值为 1 或 0, 用于区分该样本的分类$
$data=\begin{bmatrix} x_1^1 & x_2^1 \quad ...&x_n^1& y^1 \\ x_1^2 & x_2^2 \quad...&x_n^2& y^2\\ x_1^3 & x_2^3 \quad...&x_n^3& y^3 \\ . & . \quad...& .& . \\ . & . \quad...& .& . \\ x_1^m & x_2^m \quad...&x_n^m& y^m \\ \end{bmatrix}$

$(1)令x_data=X=[x11x21...xn1x12x22...xn2x13x23...xn3............x1mx2m...xnm] 令x\_data =X=\begin{bmatrix} x_1^1 & x_2^1 \quad ...&x_n^1\\ x_1^2 & x_2^2 \quad...&x_n^2\\ x_1^3 & x_2^3 \quad...&x_n^3 \\ . & . \quad...& . \\ . & . \quad...& .\\ x_1^m & x_2^m \quad...&x_n^m\\ \end{bmatrix}\tag1$

$(2)令y_data=Y=[y1y2y3..ym],y∈(1,0) 令y\_data =Y=\begin{bmatrix} y^1 \\ y^2\\ y^3 \\ . \\ . \\ y^m \\ \end{bmatrix},y\in(1,0)\tag2$

$\$
$设决策边界\rightarrow L :\theta_1x_1+\theta_2x_2+\theta_3x_3+...+\theta_nx_n=0 \tag 3$
$\$
$(4)设函数→β(x):θ1x1+θ2x2+θ3x3+...+θnxn设函数\rightarrow \beta(x) :\theta_1x_1+\theta_2x_2+\theta_3x_3+...+\theta_nx_n \tag 4$
$则\rightarrow\Theta= \begin{bmatrix} \theta_1 \\ \theta_2\\ \theta_3 \\ . \\ . \\ \theta_m \\ \end{bmatrix}\tag5$
$理论1:样本点P(x_1,x_2...x_n)带入(2)式得到\beta(x)的函数值d,则d与样本点P到决策边界的距离成正比 \tag 6$
$\$
$理论2:设样本点P_1,P_2,P_3,...P_m,分别带入函数\beta(x)得到d_1,d_2,d_3,...d_m,\\ 则各点可依据d值得正负分为两部分,\\我们令d>0的样本点的标签值为1,使d<0的样本点的标签值为0,\\从而预测并分类这两类样本 \tag7$
$\$
$sigmoid(x)=\frac{1}{1+e^{-x}}\\ 该函数有特性:\\ 当输入值x大于0时输出(0.5,1)中的某值,并且输入的x越大,输出的值越是接近1,\\ 当当输入值x小于0时输出(0,0.5)中的某值,并且输入的x越小,输出的值越是接近0\tag8$
$\$

算法过程:

$(8)1.在训练阶段通过不断给(2)中的函数β(x):θ1x1+θ2x2+θ3x3+...+θnxn带入特征数据X,从而得到值d1,d2,d3,...dm2.我们令将d1,d2,d3,...dm带入预测函数sigmoid函数(8)从而得到Y预测=(y1,y2,y3,...ym),预测并分类这两类样本3.构建合适的代价函数J(θ),表达预测与真值差异的大小4.对代价函数用梯度下降法求得最合适的(θ1,θ2,...θn,)5.在测试阶段,将特征数据X测试带入由θ最佳(θ1,θ2,...θn,)所组成的模型(预测函数):hθ(x)得到的最佳预测值Y最佳预测=(y1,y2...ym),6.依据yi的值检测预测准确率,该值越接近1或0,则预测越准确,越接近0.5则预测越无效\begin{aligned} &1.在训练阶段通过不断给(2)中的函数\beta(x) :\theta_1x_1+\theta_2x_2+\theta_3x_3+...+\theta_nx_n\\ &带入特征数据X,从而得到值d_1,d_2,d_3,...d_m\\ &2.我们令将d_1,d_2,d_3,...d_m带入预测函数sigmoid函数(8)\\ &从而得到Y_{预测}=(y^{1},y^{2},y^{3},...y^{m}),预测并分类这两类样本\\ &3.构建合适的代价函数J(\theta),表达预测与真值差异的大小\\ &4.对代价函数用梯度下降法求得最合适的(\theta_1,\theta_2,...\theta_n,)\\ &5.在测试阶段,将特征数据X_{测试}带入由\theta_{最佳}(\theta_1,\theta_2,...\theta_n,) 所组成的模型(预测函数):h_\theta(x)\\ &得到的最佳预测值Y_{最佳预测}=(y_1,y_2...y_m) \tag8,\\ &6.依据y_i的值检测预测准确率,该值越接近1或0,则预测越准确,越接近0.5则预测越无效 \end{aligned}$

目标:构建的合适的代价函数

ps:线性回归的代价函数直接套用是不合适的,因其在此场景为非凸函数
$\$
$(9)因上述算法过程我们知道当∑i=1m∣di∣的值越大,求得的决策边界越合适,越泾渭分明,越居中因此我们可以构建函数的目标:求合适的(θ1,θ2,...θn,)使函数∑i=1m∣di∣的值趋向于0或1因上述算法过程我们知道当\sum_{i=1}^m \vert d_i\vert 的值越大,求得的决策边界越合适,越泾渭分明,越居中\\ 因此我们可以构建函数的目标:求合适的(\theta_1,\theta_2,...\theta_n,)使函数\sum_{i=1}^m \vert d_i\vert 的值趋向于0或1\tag 9$
$\$
$构建预测函数反应传入样本点的预测值\\ h_\theta(x)= sigmoid[(\beta(x^{i})]=\frac{1}{1-e^{\beta(x^{i})}}\\ 根据(8)式所述,该h_\theta(x)函数将原\beta(x)函数的值域映射成(0,1)区间\\ 并继承(8)式的特性\:\\ 当输入值x大于0时输出(0.5,1)中的某值,并且输入的x越大,输出的值越是接近1,\\ 当当输入值x小于0时输出(0,0.5)中的某值,并且输入的x越小,输出的值越是接近0$
$\$
$故(9)式的目标可等价于:求合适的(\theta_1,\theta_2,...\theta_n)使函数h_\theta(x^{(i)})的值趋向于0或1\tag{10}$
$\$
$构建函数Cost(\theta,y) = \begin{cases} -log(h_\theta(x^{(i)}), & \text{if $y^i$ is 1} \\ -log(1-h_\theta(x^{(i)}), & \text{if $y^i$ is 0} \end{cases}\tag{11}$

$合并得Cost(\theta,y) =-y^ilog[h_\theta(x^{(i)}]-(1-y^i)log[1-h_\theta(x^{(i)})]\tag{12}$
$\$
$(8)式的上式函数为在定义域(0,1)的单调减函数,具有随函数值趋向0,输入值趋向于1的特性,\\ (8)该式的下式函数为在定义域(0,1)的单调增函数,具有随函数值趋向0,输入值趋向于0的特性\\ 因此(12)式具有特性:,当值域趋向于0的时候输入值趋向于0或1\\ 即(10)式的目标可等价于:合适的(\theta_1,\theta_2,...\theta_n)使函数J(\theta,y)的值趋向于0\\ 又同时因为该式为凸函数所以(12)式非常适合做为代价函数$

$\$
$(12)于是我们定义代价函数Cost(θ,y)=−∑i=1m{yilog[hθ(x(i))]+(1−yi)log[1−hθ(x(i))]}于是我们定义代价函数\\ Cost(\theta,y) =-\sum_{i=1}^m\left\{y^ilog[h_\theta(x^{(i)})]+(1-y^i)log[1-h_\theta(x^{(i)})]\tag{12}\right\}$

梯度下降

$\$
$(13)由于代价函数（12）式为复合函数，复合了下面两条式子hθ(x)=sigmoid[(β(xi)]=11−eβ(xi)由于代价函数（12）式为复合函数，复合了下面两条式子\\ h_\theta(x)= sigmoid[(\beta(x^{i})]=\frac{1}{1-e^{\beta(x^{i})}}\\ \tag{13}$
$(14)β(x):θ1x1+θ2x2+θ3x3+...+θnxn\beta(x) :\theta_1x_1+\theta_2x_2+\theta_3x_3+...+\theta_nx_n\tag{14}$
$\$
$(15)所以结合（13）（14）对复合函数（12）求导得：∂f∂θ1=−∑i=1m{yihθ(x(i))+(1−yi)1−hθ(x(i))}∂hθ(x(i))∂θ1所以结合（13）（14）对复合函数（12）求导得：\\ \frac{\partial f}{\partial\theta_1}= -\sum_{i=1}^m\left\{\frac{y^{i}}{h_\theta(x^{(i)})}+\frac{(1-y^{i})}{1-h_\theta(x^{(i)})} \tag{15}\right\}\frac{\partial h_\theta(x^{(i)}) }{\partial\theta_1}$
$-\sum_{i=1}^m\left\{\frac{y^{i}}{h_\theta(x^{(i)})}-\frac{(1-y^{i})}{1-h_\theta(x^{(i)})} \right\}h_\theta^`(x^{(i)})x_1^{i}$

$-\sum_{i=1}^m\left\{\frac{y^{i}-h_\theta(x^{(i)})}{h_\theta(x^{(i)})[1-h_\theta(x^{(i)})]} \right\}h_\theta^`(x^{(i)})x_1^{i}$
$又hθ‘(x(i))=hθ(x(i))[1−hθ(x(i))]求导过程略又h_\theta^`(x^{(i)})=h_\theta(x^{(i)})[1-h_\theta(x^{(i)})]求导过程略$

$所以\frac{\partial f}{\partial\theta_1}=-\sum_{i=1}^m\left\{x_1^{i} [y^{i}-h_\theta(x^{(i)})]\right\}\tag{16}$

$\$

$(17)同理可得到∂f∂θ1=−∑i=1m{x1i[yi−hθ(x(i))]}∂f∂θ2=−∑i=1m{x2i[yi−hθ(x(i))]}∂f∂θ3=−∑i=1m{x3i[yi−hθ(x(i))]}...∂f∂θn=−∑i=1m{xni[yi−hθ(x(i))]}同理可得到\\ \frac{\partial f}{\partial\theta_1}=-\sum_{i=1}^m\left\{x_1^{i} [y^{i}-h_\theta(x^{(i)})]\right\}\\ \frac{\partial f}{\partial\theta_2}=-\sum_{i=1}^m\left\{x_2^{i} [y^{i}-h_\theta(x^{(i)})]\right\}\\ \frac{\partial f}{\partial\theta_3}=-\sum_{i=1}^m\left\{x_3^{i} [y^{i}-h_\theta(x^{(i)})]\right\}\\ ...\\ \frac{\partial f}{\partial\theta_n}=-\sum_{i=1}^m\left\{x_n^{i} [y^{i}-h_\theta(x^{(i)})]\right\}\tag{17}$

$\$

$各θ用其偏导数乘以合适的学习率lr后更新自己各\theta用其偏导数乘以合适的学习率lr后更新自己$

$\$

$\theta_1= \theta_1-lr\frac{\partial f}{\partial\theta_1}\\ \theta_2= \theta_2-lr\frac{\partial f}{\partial\theta_2}\\ \theta_3= \theta_3-lr\frac{\partial f}{\partial\theta_3}\\ ...\\ \theta_n= \theta_n-lr\frac{\partial f}{\partial\theta_n}\tag{18}$

$\$

$重复(17)−(18)步足够的次数即可得到最优的(θ1,θ2,...θn)使得代价函数(12)取最小值重复(17)-(18)步足够的次数即可得到最优的(\theta_1,\theta_2,...\theta_n)使得代价函数(12)取最小值$

$\$

矩阵化

由于常规做法计算复杂,我们一般用矩阵的方式做梯度下降,以减少计算量与复杂度

首先把(17)式中用到的子式矩阵化

$\$
$β⇒[β(x1)β(x2)β(x3)..β(xm)]=[θ1x11+θ2x21+...+θnxn1θ1x12+θ2x22+...+θnxn2θ1x13+θ2x23+...+θnxn3........θ1x1m+θ2x2m+...+θnxnm]=X⋅θ\beta\Rightarrow \begin{bmatrix} \beta (x^1) \\ \beta (x^2) \\ \beta(x^3 ) \\ . \\ . \\ \beta (x^m) \\ \end{bmatrix}=\begin{bmatrix} \theta_1x_1^1+\theta_2x_2^1 +...+\theta_nx_n^1\\ \theta_1x_1^2+\theta_2x_2 ^2+...+\theta_nx_n^2\\ \theta_1x_1^3+\theta_2x_2 ^3+...+\theta_nx_n^3\\ \quad... . \\ \quad... .\\ \theta_1x_1^m+\theta_2x_2^m +...+\theta_nx_n^m\\ \end{bmatrix}=X \cdot \theta$

$\$
$H=[hθ(x1)hθ(x2)hθ(x3)..hθ(xm)]=sigmoid(β)上式中H中元素hθ(x(i))为β中元素β(x(i))逐个带入sigmoid函数得到H=\begin{bmatrix} h_\theta (x^1) \\ h_\theta (x^2) \\ h_\theta(x^3 ) \\ . \\ . \\ h_\theta (x^m) \\ \end{bmatrix}= sigmoid(\beta)\\ 上式中H中元素h_\theta(x^{(i)})为\beta中元素\beta (x^{(i)})逐个带入sigmoid函数得到$
$\$

将(17)式子变化并同时带入上述矩阵化后的子式
$\$

$∇f=\begin{bmatrix} \frac{\partial f}{\partial\theta_1} \\ \frac{\partial f}{\partial\theta_2}\\ \frac{\partial f}{\partial\theta_3} \\ . \\ . \\ \frac{\partial f}{\partial\theta_n} \\ \end{bmatrix}= \begin{bmatrix} x_1^1[y^1-h_\theta(x^1)]+x_1^2[y^2-h_\theta(x^2)]+...+x_1^2[y^n-h_\theta(x^n)] \\ x_2^1[y^1-h_\theta(x^1)]+x_2^2[y^2-h_\theta(x^2)]+...+x_2^2[y^n-h_\theta(x^n)] \\ x_3^1[y^1-h_\theta(x^1)]+x_3^2[y^2-h_\theta(x^2)]+...+x_3^2[y^n-h_\theta(x^n)] \\ . \\ . \\ x_n^1[y^1-h_\theta(x^1)]+x_n^2[y^2-h_\theta(x^2)]+...+x_n^2[y^n-h_\theta(x^n)] \\ \end{bmatrix}=\\ X^T(Y-H)\tag{19}$