1,回归(Linear Regression)
回归其实就是对已知公式的未知参数进行估计。可以简单的理解为:在给定训练样本点和已知的公式后,对于一个或多个未知参数,机器会自动枚举参数的所有可能取值(对于多个参数要枚举它们的不同组合),直到找到那个最符合样本点分布的参数(或参数组合)。当然,实际运算有一些优化算法,肯定不会去枚举的。注意,回归的前提是公式已知,否则回归无法进行。回归中的公式基本都是数据分析人员通过看大量数据后猜测的。根据这些公式的不同,回归分为线性回归和非线性回归。线性回归中公式都是“一次”的(一元一次方程或多元一次方程),而非线性则可以有各种形式(N元N次方程,log方程等等)。当然如果我们的公式假设是错的,任何回归都得不到好结果。
2,线性回归
线性回归是回归模型,利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合(自变量都是一次方)。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。通过合理的回归模型,我们可以得到接近于真实值的预测值,然而很多情况下,我们需要回归产生一个类似概率值的0~1之间的数值。
于是引入了Logistic方程,来做归一化。这里再次说明,该数值并不是数学中定义的概率值。那么既然得到的并不是概率值,为什么我们还要费这个劲把数值归一化为0~1之间呢?归一化的好处在于数值具备可比性和收敛的边界,归一化能够保证此次得到的结果不会因为边界 太大或太小 导致覆盖其他feature 或被其他feat