线性回归与逻辑回归:原理、应用及实践
线性回归的局限性与应对策略
线性回归中,目标变量与每个预测变量的关系基于单个系数,难以自动表示抛物线或指数增长等复杂关系。若要对这类关系建模,可对变量进行数学变换或添加新变量。其最大局限在于,线性回归是各项的求和,各项可相互独立变化,难以表示某些变量根据其值以不同方式影响结果的效应。解决办法是创建交互项,即通过将两个或多个变量相乘来创建新变量,但这需要事先知道相乘的变量,并在运行线性回归前创建新变量。总之,线性回归难以处理复杂情况,更适合简单情形。
当系统内存不足以存储大型数据集时,可采用一次学习一个示例的方法。梯度下降法每次迭代寻找最小化成本函数的正确方向,每次迭代后检查模型的总误差并更新系数,以在下次迭代中减小误差。不过,该方法需要将所有数据加载到内存中。对于大型数据集,科学家提出了一种解决方案,即算法每次从存储中按顺序选取一个示例进行学习,学完所有示例后,除非满足停止条件(如完成预定义的迭代次数),否则重新开始学习。
随机梯度下降的实现与应用
当数据量过大时,可使用随机梯度下降回归器(SGDRegressor)或随机梯度下降分类器(SGDClassifier)作为线性预测器。与其他方法不同的是,它们每次仅使用一个观测值来优化系数,虽然需要更多迭代才能达到与简单或多元回归相当的结果,但所需内存和时间更少。
在数据科学项目中,当出现以下两种情况时,可认为数据量过大:一是数据无法装入可用的计算机内存;二是即使系统有足够内存存储数据,应用程序也无法在合理时间内使用机器学习算法处理数据。
使用SGD时,若无法将所有训练数据加载到内存中,需处理数据块。为使训练有效,可使用Standar
超级会员免费看
订阅专栏 解锁全文
1173

被折叠的 条评论
为什么被折叠?



