10分钟搞懂--监督学习-回归Regression

最新推荐文章于 2025-09-14 20:06:54 发布

原创

最新推荐文章于 2025-09-14 20:06:54 发布 · 置顶 · 2.6k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#回归算法 #机器学习 #线性回归 #岭回归

本文主要介绍了回归算法中的线性回归及其派生的岭回归和套索回归。线性回归是最简单的监督学习回归算法，适用于多维特征预测。文章详细探讨了线性回归的公式推导、损失函数以及优劣势，并引出了岭回归和套索回归作为解决线性回归问题的策略。此外，还简述了逻辑回归的基本概念和损失函数。

一.回归regression

1.概述

监督学习中,将算法分为两大类,一类是回归,一类是分类.线性回归是回归算法中最简单最基础的算法,很多算法都是在此基础上衍生出来的算法,比如我们本篇文章要介绍的岭回归(Ridge,L2正则化)和套索回归(Lasso,L1正则化).

线性回归的核心思想是经验风险最小化,这与我上一篇讲到的监督学习大框架关联上了.

2.公式推导

听到线性二字,我们最先想到的就是我们高中的线性方程,y=ax+b,好我们就从它入手研究线性回归.当我们有如第一张图的数据集时,我可以尝试构建一个线性模型y=ax+b来拟合这些点,求得参数a和b,当以后有新的未知的x喂给这个线性模型就可以预测其y值了.但这种只有一个因变量x的情况在实际场景中几乎不会遇到,而都是多维因变量来决定y.
当x为多维的时候,也就是有多个特征x决定y的情况,该如何构建我们的模型呢?

$y_{i}=\Theta_{0}+\Theta_{1}x_{1}+\Theta_{2}x_{2}+\Theta_{3}x_{3}.......$

上图,是一个房价预测的数据集,[Living area]和[bedrooms]分别是该数据集的特征,这些特征影响了最终[Price]
将公式改写成向量方式表达 $h_{\Theta }(x)=\sum_{i=0}^{n}\Theta _{i}x_{i}=\Theta ^{T}X$
h(x)为预测值,与真实值必然存在一个误差,我们将这个误差构建一个函数,称其为损失函数,我们期望着损失函数尽可能的接近0,这样预测值才更接近真实值.
真实值与预测值的关系: $y_{i}=h_{\Theta_{i} }(x_{i})+\varepsilon _{i}(y|x,\Theta )$ (公式1.0)
到这里我们已经建立好了模型了,根据之前监督学习的文章,我们知道要找出一个概率分布了,以使我们可以应用极大似然函数.这里我们只有我们希望损失函数应该无限接近0,那么我们就假设损失函数服从u=0的正态(高斯)分布;
$\varepsilon_(y|x,\Theta ) \sim N(0,\sigma ^{2})$
关于损失函数的概率密度
f(εi(yi|xi:Θ))=12π√σ

最低0.47元/天解锁文章