lasso
我不准备在机器学习上纠错过长时间,但网上对lasso的资料不多,还比较学术。我这里暂时采用gpt的讲解。
实际的例子
假设我们有一个数据集,想要预测房价,特征包括:
- 房间数
- 面积
- 距离市中心的距离
- 房龄
- 最近的学校评分
- 噪音水平
在使用普通线性回归时,模型可能会考虑所有这些特征,产生一个复杂的模型,但实际上可能只有几个特征(如面积和距离市中心)对房价影响最大。
在使用 Lasso 回归时,模型会:
- 通过惩罚项压缩那些不重要的特征(如房龄、噪音水平)系数,可能将它们压缩为零。
- 最终只保留最重要的特征(如面积和距离市中心),从而得到一个更加简单和有效的模型。
再前向逐步线性回归。不深入抽象的数学是因为,我会在遇到具体问题时回来学习,而不能在学习途中深入一点花费过多的时间。
1. 什么是前向逐步线性回归?
前向逐步线性回归是一种逐步回归方法,用于选择最重要的特征来构建线性回归模型。其基本思想是从一个空模型开始,逐步添加特征,直到找到最佳模型。
2. 想象一个老师
想象你是一位老师,正在为一个班级的学生选择最有潜力的学生来组成一个团队。
- 空模型:你从没有选择任何学生开始(空模型)。这个时候,你不知道哪个学生最适合这个团队。
3. 逐步添加学生
你逐步考虑每个学生的表现(特征):
- 添加第一个学生:你查看所有学生,找出表现最好的一个,选择他加入团队。
- 添加第二个学生:接下来,你查看剩下的学生,找到表现最好的一个并添加到团队中。
- 继续添加:你继续这个过程,每次都从未选择的学生中找出表现最好的,直到你认为没有更多需要添加的学生。
4. 选择标准
在每一步中,你会有一个标准来评估学生的表现,比如每个学生的考试分数或参加活动的表现。这就类似于在回归模型中评估每个特征的统计显著性,通常使用以下标准:
- R² 或调整后的 R²:表示模型的解释能力。
- p 值:用于判断特征在模型中是否显著。
5. 实际的回归过程
在前向逐步线性回归中,你会经历以下步骤:
- 初始模型:从无特征的模型开始。
- 特征评估:每次考虑一个新的特征,计算将其添加到模型后性能的提升。
- 特征添加:如果添加该特征能够显著改善模型性能(例如,R² 提升或 p 值显著),就将该特征添加到模型中。
- 重复以上步骤:继续评估并添加特征,直到没有显著提升。
6. 结束条件
- 当没有更多特征能够显著提升模型性能时,停止添加特征。
- 最终得到的模型包含了最重要的特征,这些特征共同解释了目标变量的变化。
7. 优缺点
-
优点:
- 简单易懂,过程清晰。
- 适合高维数据,有助于特征选择。
-
缺点:
- 可能会错过某些重要特征的组合效应,因为它是逐步的,而不是同时考虑所有特征。
- 对初始选择的特征顺序敏感,可能导致不同的最终模型。
后面的google乐高预测我也不实现了,我发现机器学习和数据分析有很多关联,但……我的初衷是快速的学习了机器学习后,学习深度学习和它的应用。NLP和计算机视觉,而我选定的深度学习书上说不需要机器学习基础,这……我今天会看看那本书,如果可能,我会直接瞄准我的目标。