3、预测必备的两种算法解析

预测必备的两种算法解析

1. 算法概述

在机器学习领域,有两种算法因其易用性和有效性而备受关注。它们的可调参数较少,输入类型明确且结构良好,能解决回归和分类等多种问题。通常在开始一个新问题后的一两个小时内,就能完成输入数据的整理,并生成第一个训练好的模型和性能预测。

这些算法的一个重要特性是能够指出哪些输入变量对预测最为重要。在预测模型的开发过程中,特征选择或特征工程是最耗时的步骤之一。而这些算法通过对特征的重要性进行排序,减少了开发过程中的猜测成分,使特征工程过程更加可靠。

2. 惩罚线性回归方法

惩罚线性回归是普通最小二乘法(OLS)回归的衍生方法,OLS回归由高斯和勒让德大约在200年前提出。惩罚线性回归旨在克服OLS回归的一些基本局限性,其中最主要的问题是OLS有时会出现过拟合。

以预测男性工资为例,仅使用身高作为单一属性来预测工资,这是一个简单的预测问题。在图中,点表示男性的工资与身高的关系,直线代表OLS对该预测问题的解决方案。在某种程度上,这条线是根据身高预测男性工资的最佳模型。

然而,如果数据集只有两个点,情况就会变得不同。一条线有两个自由度,即有两个独立的参数可以唯一确定一条线,例如垂直位置和斜率。当自由度的数量等于数据点的数量时,预测效果通常不佳。不同的两点组合所拟合出的直线差异很大,我们不能对自由度与数据点数量相同的预测抱有太多信心。

在基因研究中,人类大约有20000个基因,代表20000个自由度。即使有20000个不同人的数据,也可能不足以得到可靠的答案,而在很多情况下,合理研究范围内只能获取约500人的样本。这时,惩罚线性回归可能是最佳的算法选择。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值