10分钟搞懂--监督学习-回归Regression

本文主要介绍了回归算法中的线性回归及其派生的岭回归和套索回归。线性回归是最简单的监督学习回归算法,适用于多维特征预测。文章详细探讨了线性回归的公式推导、损失函数以及优劣势,并引出了岭回归和套索回归作为解决线性回归问题的策略。此外,还简述了逻辑回归的基本概念和损失函数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一.回归regression

1.概述

监督学习中,将算法分为两大类,一类是回归,一类是分类.线性回归是回归算法中最简单最基础的算法,很多算法都是在此基础上衍生出来的算法,比如我们本篇文章要介绍的岭回归(Ridge,L2正则化)和套索回归(Lasso,L1正则化).

线性回归的核心思想是经验风险最小化,这与我上一篇讲到的监督学习大框架关联上了.

2.公式推导

  • 听到线性二字,我们最先想到的就是我们高中的线性方程,y=ax+b,好我们就从它入手研究线性回归.当我们有如第一张图的数据集时,我可以尝试构建一个线性模型y=ax+b来拟合这些点,求得参数a和b,当以后有新的未知的x喂给这个线性模型就可以预测其y值了.但这种只有一个因变量x的情况在实际场景中几乎不会遇到,而都是多维因变量来决定y.
    图1这里写图片描述
  • 当x为多维的时候,也就是有多个特征x决定y的情况,该如何构建我们的模型呢?
    这里写图片描述
    yi=Θ0+Θ1x1+Θ2x2+Θ3x3.......

    上图,是一个房价预测的数据集,[Living area]和[bedrooms]分别是该数据集的特征,这些特征影响了最终[Price]

  • 将公式改写成向量方式表达 hΘ(x)=ni=0Θixi=ΘTX
  • h(x)为预测值,与真实值必然存在一个误差,我们将这个误差构建一个函数,称其为损失函数,我们期望着损失函数尽可能的接近0,这样预测值才更接近真实值.
    真实值与预测值的关系: yi=hΘi(xi)+εi(y|x,Θ) (公式1.0)
  • 到这里我们已经建立好了模型了,根据之前监督学习的文章,我们知道要找出一个概率分布了,以使我们可以应用极大似然函数.这里我们只有我们希望损失函数应该无限接近0,那么我们就假设损失函数服从u=0的正态(高斯)分布;
    ε(y|x,Θ)N(0,σ2)
  • 关于损失函数的概率密度
    f(εi(yi|xi:Θ))=12πσ
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值