【第十六周】回顾线性回归与逻辑回归以及它们的详细推导过程

本文链接：https://blog.youkuaiyun.com/qq_30043925/article/details/142678398

摘要

本周学校的机器学习课程正好讲完了逻辑回归内容，正好趁着这个时间来回顾以下之前所学的知识，手动推导了一下线性回顾与逻辑回归的全过程，顺便进行了一些额外的阅读学习。

Abstract

This week, the machine learning course at school has just finished covering the content on logistic regression. Taking advantage of this time, I reviewed the knowledge I had learned before, manually derived the entire process of linear regression and logistic regression, and took the opportunity to do some additional reading and learning.

1.线性回归

1.1.一元线性回归

在这里插入图片描述

线性回归的本质是寻找到一条直线去最大程度地拟合已有的数据，而对于多维线性回归，就是找到一条直线去拟合高维度下多个自变量和应变量的关系。

假设目前我们已经找到了一条直线 $y = w x + b$ ，那么我们如何去评价这条直线对现有数据拟合程度的好坏呢？

很容易想到的一个角度：我们可以拿真实值和预测值做对比，预测值越接近真实值说明拟合程度越高，换句话也就是说真实值和预测值的差距越小说明拟合程度越高。

衡量差距的有以下三种方法：

在这里插入图片描述

对于第一种方法来说，当计算多个样本点时可能会发生正负抵消的情况，导致总体的差距被相互中和。比如a点真实值与预测值的差距是10，b点真实值与预测值的差距是-10，而a点和b点的总体差距却是 $10 - 10 = 0$ 了，这显然不能正确地表示真实值和预测值的总体差距大小。

对于第二种方法来说，由于后面我们使差距最小时需要对这个差距进行求导，而绝对值内并不是处处可导的，所以我们也不选择第二个方法。

因此，第三个方法就非常符合我们目前的要求了。

在这里插入图片描述

1.1.1.函数凹凸性判断

参考来源：二元函数凹凸性的判别法、二元函数判断凹凸性-优快云

设 $f (x, y)$ 在区域 $D$ 内具有二阶连续偏导数，记 $A=f''_{xx}(x,y)$ ， $B=f''_{xy}(x,y)$ ， $C=f''_{yy}(x,y)$ ，则
（1）在 $D$ 上恒有 $A < 0$ ，且 $AC-B^2≥0$ 时， $f (x, y)$ 在区域 $D$ 上时凹函数；
（2）在 $D$ 上恒有 $A > 0$ ，且 $AC-B^2≥0$ 时， $f (x, y)$ 在区域