有监督学习模型总结

本文深入探讨了有监督学习的各种模型,包括线性回归、逻辑回归、决策树、随机森林、支持向量机和神经网络等。通过实例分析,阐述了这些模型的工作原理、应用场景及其优缺点,为数据挖掘领域的实践者提供了有价值的参考。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

模型

概念

model (X → Y 的映射关系)

假设空间:决策函数的集合

F = {f|Y=f(X)}

策略(从假设空间中选取最优的model)

损失函数:一次预测的好坏

风险函数:平均意义下的好坏

计算方法(计算求解最佳参数)

eg. 梯度下降

线性

回归

线性回归是监督学习方法之一,可以用来解决分类和回归问题。

它假设变量和预测目标之间存在线性关系。学习目标是求解线性函数中的各个参数

假设:Y服从高斯分布

y = p0 + p1*x11 +

p2*x12 + ... +pk*x1k + 误差

找到以上任意指标的最小值

梯度下降求解w1, w2, w3

最小二乘法

机器学习--线性回归算法的原理及优缺点 - 泰初 - 博客园

逻辑

回归

逻辑回归是用于二分类的监督算法。它通过Logistic/Sigmoid 函数来对样本属于类1的概率进行建模。

训练时期,目标在于确定Sigmoid函数中的参数。

预测时,对于一个新的x, 如果逻辑函数给出的概率值大于某个阈值(比如0.5),则认为x属于类1

Y服从伯努利分布(丢偏心硬币)
----伯努利分布:对于随机变量Y有, 参数为p(0<p<1),如果它分别以概率p和1-p取1和0为值: Pr(Y=1)=p; Pr(Y=0)=1-p;
----概率函数:f(y|p) = p^y*(1-p)^(1-y)

优点:

  • 可解释性强,根据权重的不同可解释特征是否重要
  • 工程化简单

缺点:

不能使用交叉特征,表达能力弱,信息损失多,甚至出现“辛普森悖论

辛普森悖论:在对样本集合进行分组研究时,在分组比较中占优势的一方,在汇总实验中反而是劣势的一方
比如视频推荐中,如果使用"性别”+“视频ID" 的组合特征计算点击率,和只用视频ID单一特征,会有不同的结果。因为汇总试验对高维特征进行了合并,损失了大量的信息

为何逻辑回归选择交叉熵函数作为损失函数,而不是MSE?

  1. 交叉熵函数可以衡量模型的预测值和真实值的差距大小,差距越小代表预测值和真实值越接近。这论证了它作为损失函数的可行性
  2. 在计算方法上,我们使用的是梯度下降。逻辑回归模型使用的时候逻辑函数sigmoid。
    1. MSE:损失函数对w和b 的导数中含有对逻辑函数的偏导项 。 而逻辑函数在大部分的定义域上的导数都接近于0,这就会导致参数更新得非常慢

    2. 交叉熵:损失函数对w和b 的导数中不包含逻辑函数的导数项。权重的更新受  影响,受到误差的影响,所以当误差大的时候,权重更新快;当误差小的时候,权重更新慢。这是一个很好的性质

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值