机器学习8

lasso

我不准备在机器学习上纠错过长时间,但网上对lasso的资料不多,还比较学术。我这里暂时采用gpt的讲解。

实际的例子

假设我们有一个数据集,想要预测房价,特征包括:

  • 房间数
  • 面积
  • 距离市中心的距离
  • 房龄
  • 最近的学校评分
  • 噪音水平

在使用普通线性回归时,模型可能会考虑所有这些特征,产生一个复杂的模型,但实际上可能只有几个特征(如面积和距离市中心)对房价影响最大。

在使用 Lasso 回归时,模型会:

  • 通过惩罚项压缩那些不重要的特征(如房龄、噪音水平)系数,可能将它们压缩为零。
  • 最终只保留最重要的特征(如面积和距离市中心),从而得到一个更加简单和有效的模型。

再前向逐步线性回归。不深入抽象的数学是因为,我会在遇到具体问题时回来学习,而不能在学习途中深入一点花费过多的时间。

1. 什么是前向逐步线性回归?

前向逐步线性回归是一种逐步回归方法,用于选择最重要的特征来构建线性回归模型。其基本思想是从一个空模型开始,逐步添加特征,直到找到最佳模型。

2. 想象一个老师

想象你是一位老师,正在为一个班级的学生选择最有潜力的学生来组成一个团队。

  • 空模型:你从没有选择任何学生开始(空模型)。这个时候,你不知道哪个学生最适合这个团队。
3. 逐步添加学生

你逐步考虑每个学生的表现(特征):

  1. 添加第一个学生:你查看所有学生,找出表现最好的一个,选择他加入团队。
  2. 添加第二个学生:接下来,你查看剩下的学生,找到表现最好的一个并添加到团队中。
  3. 继续添加:你继续这个过程,每次都从未选择的学生中找出表现最好的,直到你认为没有更多需要添加的学生。
4. 选择标准

在每一步中,你会有一个标准来评估学生的表现,比如每个学生的考试分数或参加活动的表现。这就类似于在回归模型中评估每个特征的统计显著性,通常使用以下标准:

  • R² 或调整后的 R²:表示模型的解释能力。
  • p 值:用于判断特征在模型中是否显著。

5. 实际的回归过程

在前向逐步线性回归中,你会经历以下步骤:

  1. 初始模型:从无特征的模型开始。
  2. 特征评估:每次考虑一个新的特征,计算将其添加到模型后性能的提升。
  3. 特征添加:如果添加该特征能够显著改善模型性能(例如,R² 提升或 p 值显著),就将该特征添加到模型中。
  4. 重复以上步骤:继续评估并添加特征,直到没有显著提升。

6. 结束条件

  • 当没有更多特征能够显著提升模型性能时,停止添加特征。
  • 最终得到的模型包含了最重要的特征,这些特征共同解释了目标变量的变化。

7. 优缺点

  • 优点

    • 简单易懂,过程清晰。
    • 适合高维数据,有助于特征选择。
  • 缺点

    • 可能会错过某些重要特征的组合效应,因为它是逐步的,而不是同时考虑所有特征。
    • 对初始选择的特征顺序敏感,可能导致不同的最终模型。

后面的google乐高预测我也不实现了,我发现机器学习和数据分析有很多关联,但……我的初衷是快速的学习了机器学习后,学习深度学习和它的应用。NLP和计算机视觉,而我选定的深度学习书上说不需要机器学习基础,这……我今天会看看那本书,如果可能,我会直接瞄准我的目标。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值