与分类一样,回归也是预测目标值的过程。回归与分类的不同点在于,前者是预测连续型变量,而后者是预测离散型变量。在回归方程中,求得特征对应的最佳回归系数的方法是最小化误差平方和法,给定输入矩阵X如果
的逆矩阵存在并且可以求得的话,回归法就可以直接使用,数据集上计算的回归方程不一定是最佳的,可以使用预测值yHat和原始值y的相关性来度量回归方程的好坏。当数据的样本数比特征数还少时候,矩阵
的逆不能直接计算。这是应该考虑使用岭回归,因为即使
的逆矩阵不能计算,它仍能保证求得回归系数。
岭回归是缩减法的一种,相当于对回归系数的大小施加了限制。另一种很好的缩减法是lasso由于lasso难求解,但可以使用简便的逐步线性回归的方法来求的近似结果。特别提出,方差是指模型之间的差异,而偏差是指模型预测值和真实值之间的差异。偏差、方差折中是一个重要的概念,可以帮助我们理解现有模型并做出改进。